Information

Varför är positionerna för enkla sekvensupprepningar vid genen och relaterade transkriptsekvenser olika?

Varför är positionerna för enkla sekvensupprepningar vid genen och relaterade transkriptsekvenser olika?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Jag arbetar med den enkla sekvensupprepningen (SSR). Jag hittade bara en region (ca 21 bp) med ett SSR-motiv i en given gen. Denna gen har flera transkript, med samma SSR-motiv lokaliserat i olika positioner av olika transkript. Kan du snälla hjälpa mig att förstå hur detta hände?


På grund av alternativ splitsning, anta att ett exon uppstår varken det första eller det sista, då kommer samma exon att komma på olika positioner i olika transkript av samma gen. Således, om din SSR av intresse finns i den exonen, kommer du att hitta samma SSR placerad i olika positioner i olika transkript.


Alu upprepningar och mänsklig genomisk mångfald

Alu-element är en klass av korta interspersed element (SINE) som har expanderat till ett antal kopior på mer än en miljon element i primats genom.

Expansionen av Alu-element kännetecknas av spridningen, i en serie av underfamiljer, av element av olika evolutionär ålder som delar gemensamma nukleotidsubstitutioner.

Alu-element har en inverkan på genomet på flera sätt, inklusive insättningsmutationer, rekombination mellan element, genomvandling och genuttryck.

De mänskliga sjukdomarna som orsakas av Alu-insättningar inkluderar neurofibromatos, hemofili, familjär hyperkolesterolemi, bröstcancer, insulinresistent diabetes typ II och Ewing-sarkom.

Alu-element förändrar fördelningen av metylering och, möjligen, transkription av gener genom genomet.

Transkriptionen av Alu-element förändras som svar på cellulär stress och kan vara involverad i att upprätthålla eller reglera cellulär stressrespons.

Alu-element är en primär källa för ursprunget till enkla sekvensupprepningar i primatgenom.

Alu-insertion polymorfismer är en välsignelse för studiet av mänsklig populationsgenetik och jämförande genomik för primater eftersom de är neutrala, identiska genetiska markörer med kända förfäders tillstånd.


Bakgrund

Dinoflagellater är en mångfaldig grupp av encelliga mikroalger som är allestädes närvarande i marina och sötvattensmiljöer. I korallrev är dinoflagellater av familjen Symbiodiniaceae de dominerande fotosyntetiska symbionterna av cnidarians (t.ex. koraller, havsanemoner och maneter), jättemusslor, svampar och andra mikroorganismer inklusive foraminiferaner och ciliater [1]. Symbiodiniaceae kan bidra med mer än 90 % av sitt kol som fixeras via fotosyntes, för att möta de energiska behoven hos korallvärden [2].

Korallrevs ekosystem över hela världen är under allvarligt hot från uppvärmning av hav och ökade mänskliga aktiviteter i kustområden [3]. En blygsam episodisk ökning av havsytans temperatur i denna miljö kan resultera i oxidativ skada och frikoppling av kolflödet mellan symbionten och värden. Specifikt sätter nedbrytning av korall-dinoflagellat-symbiosen (dvs korallblekning) korallvärden i riskzonen för svält, sjukdom och eventuell död [4,5,6]. Den globala korallblekningshändelsen mellan 2014 och 2017 är den längsta någonsin, och episodiska massblekningshändelser fortsätter att inträffa [7, 8]. Bevarandestrategier behövs akut för att underhålla och återställa befintliga korallrev. Utformningen av sådana ingrepp kräver ett mångsidigt tillvägagångssätt för att förstå rollen för varje biotisk komponent för att upprätthålla en hälsosam, motståndskraftig symbios [9,10,11]. Genomiska resurser har visat sig användbara för att informera om bevarandeinsatser [12], men genomskaladata för korallrevssymbionterna är fortfarande knappa. Bristen på genomdata från Symbiodiniaceae förklaras av de relativt stora storlekarna (1-5 Gbp) [13, 14] och den komplexa, atypiska strukturen hos dinoflagellatgenom och kromosomer [15, 16].

Den genetiska mångfalden hos Symbiodiniaceae kan förklaras av naturligt urval som verkar på genom involverade i ett brett spektrum av symbiotiska associationer som varierar i värdspecificitet, överföringssätt och beständighet på hospit [17, 18] såväl som av stokastiska krafter som kan leda till genetisk drift [19]. Symbios, eller avsaknaden av sådan, har varit inblandad i genomutvecklingen av Symbiodiniaceae [20]. De flesta symbiotiska arter tros vara fakultativa i viss utsträckning, med potential att skifta mellan ett fritt levande motilt stadium (mastigot) och ett sfäriskt symbiotiskt stadium (coccoid). Genomen av fakultativa och nya intracellulära bakteriella symbionter är vanligtvis dynamiska, kännetecknade av omfattande strukturella omarrangemang, intensifierad aktivitet av transposerbara element (TEs) och ökad genduplicering som leder till ackumulering av pseudogener [21, 22]. Symbiotiska Symbiodiniaceae, övervägande fakultativa, förväntas uppvisa liknande genomiska egenskaper i motsats till frilevande taxa, den senare gruppen inkluderar arter som hittills endast har hittats i miljöprover och, i laboratorieexperiment, misslyckas med att framgångsrikt infektera potentiella värdar [23, 24]. Baserat på aktuell taxonomisk klassificering innehåller familjen Symbiodiniaceae det största antalet beskrivna arter inom den fylogenetiskt distinkta ordningen Suessiales [25, 26] som även inkluderar andra frilevande taxa som t.ex. Polarella [27] och Sphaerodinium [28].

Här genererade vi utkast till genomsamlingar från sju medlemmar av släktet Symbiodinium: två frilevande, ett opportunistiskt och fyra symbiotiska isolat som representerar distinkta livsstilar för Symbiodiniaceae. I kombination med andra tillgängliga data jämförde vi systematiskt helgenomsekvenser av 15 dinoflagellat-taxa (varav 13 är Symbiodiniaceae) för att bedöma divergensen och den genetiska mångfalden hos Symbiodiniaceae i förhållande till de inom det enda släktet av Symbiodinium. Vi upptäckte omfattande genomsekvensdivergens inom oss Symbiodinium det är jämförbart med det bland olika släkten av Symbiodiniaceae och genfamiljer som kan bidra till nischanpassning. Denna genetiska mångfald leder sannolikt till mer komplexa interaktioner än man tidigare trott mellan korallvärdar (och andra) och Symbiodiniaceae-symbionter.


Resultat

Genomsammansättning

Vi presenterar här mycket sammanhängande genomsammansättningar av en hona och en hane S. purpurea. Honenheten (94006 v4) består av 452 contigs med en N50 på 5,1 Mb, vilket täcker en sammanlagd summa på 317,1 Mb. På samma sätt har hanenheten (Fish Creek v3) 351 contigs och en N50 på 5,6 Mb, som täcker 312,9 Mb (Ytterligare fil 1: Tabell S1). Båda sammansättningarna är delvis infasade i genomiska regioner där de två haplotyperna är divergerande. Alternativa haplotyper representeras av 421 kontiger på totalt 72,4 Mb i den kvinnliga sammansättningen och 497 kontiger på totalt 149 Mb för hanen. Med hjälp av en genetisk karta från en stor interkorsfamilj härledd från avkomma av den sekvenserade manliga genotypen skapade vi sammansättningar som representerade de 19 kromosomerna, innehållande 108 kontiger på totalt 288,3 Mb för honan och 96 kontiger på totalt 288,5 Mb för hanen. Dessa representerar över 90% av den sammansatta sekvensen i båda fallen, även om 344 och 255 kontiger förblev oplacerade av den genetiska kartan för honan respektive hanen (Ytterligare fil 1: Tabell S2). De kartlade och oplacerade kontigerna kallas härefter kollektivt för huvudgenomet, vilket utesluter de alternativa haplotyperna.

Eftersom vi förväntade oss att W-haplotypen skulle skiljas från Z-haplotypen i SDR, förväntade vi oss att mycket av denna region skulle monteras som separata kontiger. Dessa kan lätt särskiljas genom att undersöka det relativa täckningsdjupet när man anpassar manliga kontra kvinnliga kortlästa sekvenser mot dessa referenser. Efter att ha identifierat platsen för SDR baserat på närvaron av könsbundna markörer [20], verkade den initiala kromosom 15-enheten bestå av en blandning av Z- och W-ställningar i en region som vi antar att den ligger inom SDR (Ytterligare fil 2 : Figur S1a). Vi försökte därför skapa en ny sammansättning med Z- och W-haplotyper monterade för att separera kromosomer. För att göra detta identifierade vi först de förmodade W-kontigerna med hjälp av könsassociation i en population på 60 orelaterade individer och olika täckningsdjup hos män och kvinnor från en F2 stamtavla som kriterium [20]. Detta resulterade i att identifiera 23 contigs som förmodat bestod huvudsakligen av sekvens härledd från W-haplotypen (Ytterligare fil 1: Tabell S3). En ställning uteslöts eftersom den mestadels bestod av en alternativ haplotyp av en längre kontig av Chr15W.

Många av dessa contigs saknade markörer från intercross-kartan som användes i den ursprungliga genomsammansättningen [20], särskilt för de som kom från delar av W-haplotypen som var frånvarande från Z-kromosomen. Vi skapade därför nya genetiska kartor som hade en blandning av SNP och indel-markörer som skulle vara mer lämpade för att fånga dessa hemizygota delar av genomet. De nya genetiska kartorna konvergerade till 19 stora länkgrupper som representerade de 19 kromosomerna. Den manliga backcross-kartan innehöll 8715 markörer, medan den kvinnliga backcross-kartan innehöll 8560 markörer (Ytterligare fil 1: Tabell S4). Vi använde dessa för att montera en Z- och en W-version av Chr15 (Ytterligare fil 1: Tabell S5). Således innehåller den nuvarande sammansättningen (release ver5) 20 kromosomer, inklusive Chr15Z och Chr15W. Totalt 6,56 Mb (95,7%) av den W-specifika contig-sekvensen, som fanns i 17 contigs, sattes ihop till Chr15W med användning av dessa kartor. Fyra förmodade W-ställningar på totalt 297 kb i längd saknade kartlagda markörer och kunde inte placeras entydigt.

SDR:s läge

Vi upprepade sexassociationsanalyser för de 60 orelaterade individerna som använde vår nya sammansättning med Chr15Z borttagen. Bland 54 959 testade SNP:er för genotypning genom sekvensering (GBS), var alla 105 signifikant könsbundna SNP:er endast närvarande på Chr15W (Fig. 1a Ytterligare fil 2: Figur S2a-c), och markörer från PAR och andra ställningar i huvudgenomet gjorde det inte visa någon sexassociation (Ytterligare fil 2: Figur S2a). De åtta topprankade könsassocierade markörerna var fördelade från 7,66 till 8,66 Mb. Könsassocierade markörer var främst heterozygota hos kvinnor och homozygota hos män, vilket bekräftar vår tidigare rapporterade observation av ZW-könsbestämning i S. purpurea [20].

Genomiskt innehåll av Chr15W och sammansättning av könsbestämningsregionen (SDR). a En Manhattan-plot av Chr15W, baserad på GWAS med användning av SNPs härledda från anpassning till ett referensgenom som saknar Chr15Z. De Y axel är den negativa logaritmen för sid värden, och den röda linjen indikerar att Bonferroni är avstängd. b Antal LTR-element inklusive Gypsy och Copia, samt gener i 100-kb-fönster med en 50-kb-stegstorlek. c Fördelning av kvinnlig partisk sekvens på Chr15W, tillsammans med en mer detaljerad bild av SDR nedan. Varje färgat block visar loggen2 av förhållandet mellan hon- och handjup i 10-kb-fönster. Vertikala grå linjer under figuren visar gränserna för contigs i SDR. d Varje fästing representerar en gen i SDR. Färger indikerar förmodat ursprung för generna baserat på blastp kontra resten av genomet

Sammansättning av kromosomerna 15 W och 15Z

Chr15W är 15,7 Mb lång, sammansatt av 22 kontiger placerade med den nya genetiska kartan. Som jämförelse är Chr15Z endast 13,3 Mb och består av 16 kontiger (Ytterligare fil 1: Tabell S5 Fig. 1). Det finns två pseudoautosomala regioner (PAR), en i varje ände av Chr15W, som inte går att skilja från motsvarande regioner på Chr15Z. PAR1 är 2,3 Mb lång och består av en kontig, och PAR2 är 6,5 Mb och består av tre kontiger (fig. 1). Dessa regioner är opasade och är därför identiska i de två sammansättningarna.

Den W-kopplade könsbestämmande regionen (SDR) är 6,8 Mb lång och upptar nästan 40 % av kromosomen (hädanefter kallad W-SDR). Denna region genomgår minimal rekombination i kartläggningspopulationen (Ytterligare fil 2: Figur S4). Om man undersöker manligt och kvinnligt täckningsdjup av W-SDR, är det tydligt att denna region av genomet mestadels är fasad för att separera de manliga och kvinnliga haplotyperna (ytterligare fil 2: Figur S1b). Regionen som motsvarar W-SDR på Chr15Z är endast cirka 4 Mb lång och upptar endast 28,2% av kromosomen (hädanefter kallad Z-SDR) (Ytterligare fil 2: Figur S3). Baserat på förhållandet mellan manligt och kvinnligt täckningsdjup är de ZW-homologa regionerna som finns på både Z- och W-kromosomen cirka 3,5 Mb och insättningar som är unika för W är cirka 3,1 Mb i W-SDR (Fig. 1c).

W-SDR har lägre gentäthet och högre upprepad täthet än andra delar av genomet, vilket tyder på att repetitiva element har ackumulerats i denna region (tabell 1). Mer specifikt visar både W-SDR och Z-SDR lägre gendensitet i genomsnitt än PAR eller andra autosomer. På liknande sätt visar både W-SDR och Z-SDR högre ackumulering av Gypsy retrotransposoner. Intressant nog förekommer Copia-LTR med högre densitet i W-SDR-regionen jämfört med Z-SDR (10,9% av W-SDR mot 5,9% av Z-SDR), (Kruskall-Wallis-test, P < 2.2e−16) (tabell 1), vilket tyder på att dessa infördes efter att rekombinationen upphörde mellan dessa haplotyper.

Geninnehåll i W-kromosomen

Det finns 269 gener i PAR1, 778 gener i PAR2 och 488 gener i W-SDR. Däremot innehåller Z-SDR endast 317 gener (Fig. 2 Ytterligare fil 1: Tabell S6-S7). Ytterligare 29 gener finns på scaffold_844, som troligen härrör från Z-haplotypen, men som saknade genetiska markörer för att placera den korrekt. För att utvärdera fullständigheten av Z-kromosomen jämförde vi geninnehållet i denna region med det från Fish Creek manliga referensgenom. Z-SDR-regionen bestod av fyra kontiger som spänner från 2,86 till 7,10 Mb i Fish Creek, innehållande totalt 333 gener. Eftersom storleken och geninnehållet var mycket lika mellan Z-kromosomerna för de manliga och kvinnliga referenserna, begränsar vi vår analys till honan för att förenkla jämförelsen.

Kommenterade gener i Chr15W och Chr15Z. Gener grupperas enligt den bästa icke-självträffen i det annoterade genomet. Tjugonio gener från en omappad Z, scaffold_844 ingår också. Stippade områden indikerar gener från grupper identifierade som tandemduplikat

Det fanns 156 ömsesidiga bästa träffar i en kopia mellan W-SDR och Z-SDR, hädanefter kallade Z-W-homologer (analogt med X-degenererade gener på däggdjurs könskromosomer) (Fig. 2). W-SDR innehåller också 32 gener i tandemduplikationer, medan motsvarande tandemupprepningar i Z-SDR innehåller 56 gener. Dessutom innehåller W-SDR 40 gener som har ömsesidigt bästa träffar på andra autosomer, och 33 av dessa är tandemduplicerade i SDR. Däremot innehåller Z-SDR-regionen endast 11 sådana gener, varav endast sex är tandemduplicerade. Dessa förmodat transponerade gener utgör 8% av W-SDR och endast 3% av Z-SDR. Ytterligare 54 gener i W-SDR resulterade från intrakromosomala transpositioner och efterföljande tandemduplicering, medan endast 7 gener i denna kategori finns på Z-SDR. Totalt står dessa transponerade och amplikoniska gener för mer än hälften av skillnaden i geninnehåll mellan haplotyperna. Ytterligare 103 gener i W-SDR hade en toppträff till andra gener i genomet, men den bästa träffen var inte ömsesidig, så dessa är lägre konfidenskandidater för transpositioner eller Z-W-homologer. Z-SDR innehöll 54 sådana gener. De återstående generna hade inga signifikanta träffar på andra gener i genomet, förmodligen på grund av förlust genom deletion, eller luckor i sekvensen eller anteckningen (85 i W-SDR och 42 i Z-SDR).

Z-W homologer och strata

Vi använde syntena genpar identifierade genom MCScanX mellan W-SDR och Z-SDR för att testa om det finns strata med olika grader av divergens baserat på synonyma substitutioner (dS), vilket skulle indikera olika faser av upphörande av rekombination [27]. Det fanns få bevis för att stödja närvaron av strata baserat på 156 par Z-W homologer (Fig. 3 och ytterligare fil 1: Tabell S8). Genomsnittet dS var 0,027 ± 0,020 SE. Som jämförelse dS mellan syntetiska gener på Chr01 för S. purpurea och S. suchowensis var 0,045 ± 0,0022 SE, och den dS mellan S. purpurea och P. trichocarpa var 0,146 ± 0,0022 SE för syntetiska gener på Chr01 (Fig. 3).

Synonyma substitutionsgrader (dS) för gener i SDR. a Jämförelse av syntena gener i W-SDR och Z-SDR. Staplar representerar standardfel. b Boxplot som visar distributioner av interspecifika synonyma substitutioner för 1365 syntena gener på Chr01 för de närbesläktade arterna S. purpurea och S. suchowensis och för 1363 gener på Chr01 in S. purpurea och Populus trichocarpa, jämfört med fördelningen av substitutioner mellan syntetiska gener i S. purpurea SDR

Transpositioner till W-SDR och palindromiska upprepningar

De nyligen transponerade generna är av särskilt intresse eftersom de kan ge en potentiell mekanism för etablering av SDR och kan lyfta fram gener som är potentiella kandidater för könsbestämning och/eller könsantagonism [28]. Bland 40 gener som förmodas transponerats från autosomer till W-SDR, har 7 bästa träffar på Chr19 (manuellt kommenterade gener uteslutna) (Ytterligare fil 1: Tabell S9). Contig ws19 är särskilt berikad för transponerade gener och förtjänar en närmare undersökning (Fig. 1). Contig ws19 innehåller 11 transponerade gener, inklusive fyra gener från Chr19 och fyra gener från Chr17 (Fig. 1). Många av dessa transponerade gener förekommer i två till fyra kopior på ws19 i slående inverterade upprepningskonfigurationer som liknar de palindromiska upprepningar som förekommer på däggdjurs Y-kromosomer (Fig. 4).

Palindromiska upprepningar i S. purpurea W kromosom (a) och den H. sapiens Y-kromosom (b). Punktdiagrammen producerades med LASTZ med identiska inställningar. Notera de olika skalorna, indikerade av stapeln uppe till höger på varje figur. H. sapiens palindromer är märkta efter Skaletsky et al. [4]

I S. purpurea, denna region är kvinnospecifik (dvs den förekommer hos alla honor men hos inga män) och består av två palindromer. Palindrome W.P1 spänner över cirka 42,7 kb med en 2,6 kb distans i mitten, och Palindrome W.P.2 är omedelbart intill och spänner över 165 kb (tabell 2, fig. 4a). En 20-kb sekvens förekommer i inverterad orientering och visar hög sekvensidentitet över de fyra armarna av båda palindromerna (tabell 2, fig. 5a). I palindrom W.P1 hänvisas dessa till som arm1 och arm2, och i Palindrom W.P2 benämns dessa som arm3a och arm4a (tabell 2 Fig. 4a). Sekvensidentiteten bland dessa fyra armar är i genomsnitt större än 99 %. Regionerna med hög sekvensidentitet störs av en

500 bp införande i mitten av arm4. Dessutom har arm3 en 6,9 kb deletion vid 11,7 kb, följt av en sträcka på 1,6 kb som kan riktas in mot de andra armarna i samma orientering (fig. 5a). Dessutom finns det en 12-kb sträcka uppströms arm1 som visar hög identitet till delar av arm 1 och 2. Vi kallar detta för armen för bekvämlighets skull (tabell 2).

Sekvensjämförelser för de två palindromerna. a Jämförelse av de fyra armarna som delas mellan de två palindromerna. Den svarta linjen representerar antalet nukleotidskillnader i 100-bp-fönster, medan den röda linjen indikerar luckor i justeringen på en inverterad skala. b Jämförelse av de delar av palindrom 2 som inte delas med palindrom 1. c Fylogenetiska träd av fem multikopiagener i den palindromiska regionen

Palindrome W.P2 innehåller ytterligare en inverterad upprepning som saknas från W.P1. Vi hänvisar till detta som arm3b och arm4b (tabell 2 Fig. 4a). Sekvensidentiteten är något lägre mellan dessa två armar jämfört med de andra fyra, från 96 till 99 % över större delen av deras längd. Vidare störs regionerna med hög identitet av ett flertal infogningar och deletioner (fig. 5b).

Geninnehåll i palindromerna

Det finns fem gener duplicerade över armarna 1, 2, 3a och 4a i båda palindromerna. Dessa är det Small Muts-relaterade proteinet (SMR), en typ-A cytokininresponsregulator (RR), två gener som innehåller en NB-ARC-domän (R1 och R2) och ett hydroxicinnamoyl-CoA-shikimat/hydroxicinnamoyltransferas (HCT) (Tabell 3). Alla dessa gener utom R2 har tydliga paralogiska kopior på Chr19. Det finns mycket liten sekvensdivergens bland de flesta av dessa paraloger i palindromerna (Fig. 5).

Cytokininsvarsregulatorn är av särskilt intresse eftersom en ortolog av denna gen också har visat sig vara associerad med sex i Populus [24] och är därför en utmärkt kandidat som könsbestämningsgen i Salicaceae. RR-genen är mycket konserverad över alla fyra palindromarmarna på W-SDR (Fig. 5a, c). Intressant nog hittade vi också en pseudogen kopia av RR-genen på Z-SDR. Detta är den enda av de fem generna som finns i någon form på W-SDR, Z-SDR, Chr19 och även i SDR av Populus. Det finns en 2,6-kb sekvens införd uppströms om alla RR-kopior i palindromen, och inte i Z-SDR-pseudogenen eller på Chr19 (Ytterligare fil 2: Figur S5). Detta tyder på att W-SDR-palindromen bildades efter transponering från Chr19. Intressant nog förekommer RR-genen också som inverterade upprepningar på alla tre platserna i genomet (W-SDR, Z-SDR och Chr19). Justering av W-SDR-, Z-SDR- och Chr19-versionerna visar dock att palindromerna sannolikt bildades oberoende, eftersom de palindromiska regionerna är olika (Ytterligare fil 2: Figur S5).

Det finns ytterligare fem gener i W.P2-palindromen. Tre av dessa gener förekommer som inverterade upprepningar: ett DNA-riktat primas/polymerasprotein (DRBM), en DNA-primas (DPRIM), och ett protein som innehåller Domain of Unknown Function 789 (DUF789). Dessutom finns det en homolog av ARGONAUT 4 (TF2C) och ett CBS-domänprotein (ACDP) i ett exemplar. Fyra av dessa gener transponerades tydligen från Chr17 (tabell 3). Detta leder oss till hypotesen att efter att dessa gener överförts till W-SDR genomgick de flera omgångar av strukturella omarrangemang, inklusive duplikationer, inversioner och deletioner.

Flera LTR-retrotransposoner i palindromen

För att få ytterligare insikt i W-SDR:s sammansättning och historia använde vi LTRharvest och LTRdigest för att kommentera LTR-retrotransposoner i den palindromiska regionen. Vi identifierade en LTR-retrotransposon i pre-Arm-regionen och 12 LTR-retrotransposoner i palindrom W.P2 som har terminala upprepningar identifierade med kodande regioner (Fig. 6a). Dessa 13 retrotransposoner kommer sannolikt att vara oberoende infogningshändelser med tanke på att de har olika långa terminala upprepningar såväl som olika målplatsdupliceringar och inte förekommer i samma position i motsatt arm av palindromen (Ytterligare fil 1: Tabell S10). Med tanke på att det finns ett varierande antal substitutioner inom LTR för samma retrotransposon, verkar det som om dessa insättningar har inträffat upprepade gånger efter etableringen av palindromerna. Med hjälp av en tidigare uppskattning av mutationshastigheten i P. tremula (2,5 × 10 − 9 per år) [29], vi uppskattar att den äldsta insättningen skedde minst 8,6 ± 2,9 s.d. MYA från en icke-autonom LTR-retrotransposon, Ltr-p2-a (Fig. 6a och ytterligare fil 1: Tabell S10). Detta är sannolikt en underskattning, eftersom Salix substitutionsgraden är betydligt högre än den för Populus [30]. Eftersom de äldsta substitutionerna inträffade i Palindrome W.P2, drar vi slutsatsen att detta element etablerades först (Fig. 6a). LTR för de icke-autonoma elementen Ltr-p2-a och Ltr-p2-k flankera SMR och RR gener (Fig. 6c, d Ytterligare fil 2: Figur S6), vilket väcker den spännande möjligheten att dessa LTR var involverade i transponeringen av dessa gener till denna region. Dock är målställets duplikationer för dessa kopior identiska över palindromarmarna, vilket tyder på att duplikationerna och omarrangemangen av dessa gener i W-SDR inte involverade dessa element (Ytterligare fil 2: Figur S6). Vi hittade också två mycket lika LTR från samma familj i W.P1 (Ltr-p2-b3 på arm3 och den Ltr-p2-b4 på arm4 Fig. 6a–c Ytterligare fil 1: Tabell S10). Det finns trunkerade delar av denna LTR i förarmen och distansen mellan arm1 och arm2 också (fig. 6b, c). Dessa kopior kan vara en direkt följd av duplikationer och inversioner som inträffade under bildandet av palindromen istället för oberoende insättningar.

LTR-retrotransposoner, kvinnospecifika gener och palindromer. a Varje vertikal linje med en kil på toppen representerar var och en av de 13 TE som identifierats i den palindromiska regionen av LTRharvest. Höjden på varje linje indikerar antalet uppskattade nukleotidsubstitutioner i de två LTR:erna (transposonerna a-h), och en approximation av insättningstiden baserat på mutationshastigheten i P. tremula [29]. b Färgade rutor representerar förmodade kromosomala ursprung för gener i palindromen. Mörkröd, Chr19, cyan, Chr17. Blå rutor representerar gener med paraloger på Z-kromosomen. c Positionerna för 13 LTR (skuggade rutor). Krockade rutor representerar ofullständiga dupliceringar som härrör från Ltr-p2-b3/b4. d Exon positioner och orienteringar, representerade av färgade pilar. e Schematisk representation av kvinnospecifika palindromer. Rutan med en stjärna representerar en homolog region härledd från en del av en av armarna (preARM). Pilriktningarna indikerar de fyra armarnas relativa orienteringar

Bevis för genomvandling i palindromerna

Vi har visat att palindromerna sannolikt kommer att vara miljontals år gamla baserat på retrotransposonanalysen, men sekvensidentiteten för delar av palindromarmarna förblir hög (fig. 5a). Den mest sparsamma förklaringen till detta är genkonvertering bland palindromarmarna, vilket har observerats i däggdjurs Y-kromosompalindromer [6, 31]. För att testa detta sökte vi efter regioner som hade interspecifika bassubstitutioner i förhållande till Salix suchowensis, en närbesläktad art med ZW könsbestämning [22]. Om regioner med interspecifika substitutioner saknar paralog sekvensvariation (PSV) över palindromarmarna, skulle detta vara utmärkta bevis på genomvandling [31]. Vi upptäckte en 3-kb-region inom palindromerna där det inte finns några PSV i S. purpurea och bara en PSV in S. suchowensismen avsevärda interspecifika polymorfismer (fig. 7). Djupet av denna region är 4N som förväntat för de fyra kopiorna av palindromarmarna i S. purpurea. I S. suchowensis, är djupet mellan 2N och 3N, vilket indikerar att det kan finnas en palindromstruktur också, även om den kan vara ofullständig. Vi tillämpade också samma metoder med återsekvensering av två kvinnor och två män S. viminalis individer (en annan Salix med ZW könsbestämning) [21], men den palindromiska regionen täcktes inte väl av läsningar av något av könet. Det kan tyda på det S. viminalis saknar palindrom, även om det är mer avlägset besläktat med S. purpurea än är S. suchowensis, så detta kan helt enkelt bero på överdriven sekvensdivergens i denna region.

Sekvensvariation i palindromarmarna. a Täthet av fasta skillnader mellan S. purpurea och S. suchowensis per 100 bp. b Täthet av paraloga sekvensvarianter (PSV, skillnader mellan de fyra palindromarmarna) i S. purpurea och S. suchowensis. c Relativt djup av Illumina-sekvensavläsningar anpassade till en referenssekvens för en arm av S. purpurea palindrom, där 2N representerar det förväntade djupet av läsjustering över hela genomet. Det grå skuggade området representerar ett segment av palindromen som är berikat för interspecifika fixerade varianter, men utarmat i PSV, vilket ger starka bevis för differentiell genomvandling i de två linjerna

Uttrycksmönster för gener i palindromerna

Vi undersökte uttrycksprofiler i flera vävnader av de två referensgenomen för att validera de förutsagda transkripten och för att bestämma hur uttrycksmönstren för gener i palindromerna skiljer sig från deras autosomala motsvarigheter. De flesta generna i palindromerna visar kvinnligt begränsat uttryck medan de autosomala kopiorna i allmänhet inte är könsorienterade (Fig. 8a). Cytokininsvarsregulatorn (RR) (Sapur.15 W073500) visar det högsta uttrycket i kattvävnad, följt av uttryck i skottspetsar och stjälkar. Tvärtom, två autosomala kopior på Chr19 uppvisar lägre uttryck, begränsat till honklossar och manliga knoppar. De fyra exemplaren av SMR genen visar lågt uttryck i kattungar och andra vävnader, men den autosomala kopian på Chr19 (Sapur.019G001500) uttrycks i alla vävnader (Fig. 8a). Alla fem exemplar av HCT genen från palindromerna visade lågt uttryck i honungar och rötter och högre uttryck i bladvävnader, skottspetsar och stjälkar, som alla var kvinnliga. Två kopior av DNA Primase-genen från palindrom W.P2 visar också högt uttryck i bladvävnader medan originalkopian på autosomen (Sapur.017G119600) uttrycktes över alla provade vävnader. På liknande sätt, analys av transkriptomiska data från kattungar från 10 honor och 10 män i F2 familjen bekräftar att generna i palindromerna primärt uttrycks i kvinnlig vävnad, i motsats till deras autosomala paraloger (fig. 8b).

Expressionsprofil för gener från W-palindromerna och autosomala paraloger. a Normaliserade avläsningsantal av gener i olika vävnader från klon 94006 (hona) och Fish Creek (hane). b Normaliserade avläsningsantal av utvalda gener i kattungar från 10 honor och 10 hanar från en F2 familj. Genetiketter i fet stil är från palindromerna. Asterisker indikerar manuellt kommenterade gener


Introduktion

Leddjur är den artrikaste djurstammen på jorden. Av de fyra bevarade klasserna av leddjur (Insecta, Crustacea, Myriapoda och Chelicerata) (Figur 1), är det bara Myriapoda (tusenfotingar, tusenfotingar och deras släktingar) som för närvarande inte representeras av något sekvenserat genom [1],[2]. Denna frånvaro är särskilt olycklig, eftersom myriapods nyligen har erkänts som den levande systergruppen till kladden som omfattar alla insekter och kräftdjur [3]–[6]. Därför är Myriapoderna särskilt väl lämpade att tillhandahålla en utgrupp för jämförelse, för att bestämma förfädernas karaktärstillstånd och polariteten hos evolutionära förändringar inom insekter och kräftdjur, som tillsammans representerar de mest mångsidiga djurklädseln på jorden.

(Se text för detaljer). De fyra traditionellt accepterade leddjursklasserna är markerade med fet stil.

Fastän Drosophila melanogaster är den bäst studerade leddjuren, den saknar många gener som finns i den förfäders bilaterala genuppsättningen, och kromosomomarrangemang har stört alla uppenbara bevis på synteni med andra phyla [7]. Den är alltså inte helt representativ för andra leddjur. Mer omfattande provtagning av leddjursgenom kommer att fastställa deras grundläggande struktur och avgöra när unika genomiska egenskaper hos olika taxa, såsom holometabola insekter, uppträder.

Myriapodernas fylogenetiska position

Myriapods representeras idag av två stora härstamningar – de växtätande tusenfotningarna (Diplopoda) och de köttätande tusenfotningarna (Chilopoda), tillsammans med två mindre kladdar, Symphyla, som ytligt ser ut som små vita tusenfotingar, och den lilla Pauropoda [8]. Alla kännetecknas av en multisegmenterad stam av ganska lika (homonoma) segment, utan differentiering till bröstkorg eller buk. Alla nyare studier, molekylära och morfologiska, stödjer monophylin av myriapods [3]–[5],[8]–[10] vilket tyder på att de delar en enda gemensam förfader.

Myriapods, insekter och kräftdjur har traditionellt sett identifierats som en kladd av mandibulate leddjur, kännetecknad av huvudbihang som inkluderar antenner och bitande käkar [11]. Vissa molekylära datauppsättningar har utmanat denna idé, och antyder istället att myriapods är en systergrupp till cheliceraten [12],[13]. De mest omfattande fylogenomiska datamängderna hittills avvisar detta, och stöder starkt fylogenin som föreslår att keliceraten är den mest basala av de fyra stora bevarade leddjurskläderna, och mandibulaten representerar en sann monofyletisk grupp [3],[5],[10] ],[14]–[17].

Inom underkäken trodde man fram till nyligen att myriapoder hade ett gemensamt ursprung med insekter som jordlevande leddjur. Denna uppfattning, baserad på ett antal delade karaktärer inklusive uniramösa lemmar, luft som andas genom luftstrupen, avsaknaden av ett andra par antenner och utsöndring med malpighiska tubuli, fick brett stöd av morfologiskt baserade fylogenier [9],[18]. Molekylära fylogenier avvisar dock starkt systergruppsförhållandet mellan insekter och myriapods, vilket placerar ursprunget till myriapods basal till diversifieringen av kräftdjur [5], och identifierar insekter som en härledd clade inom Crustacea [19]–[21]. Eftersom kräftdjur till övervägande del är en marin grupp idag, och var så uråldriga, innebär detta att myriapods och insekter representerar oberoende invasioner av landet (med cheliceraten representerar en ytterligare, orelaterade invasion). Deras gemensamma egenskaper är slående konvergenser, inte synapomorfier.

S. maritima som modell Myriapod

Vi väljer S. maritima som arten att sekvensera delvis av pragmatiska skäl: geophilomorph tusenfotingar, som t.ex S. maritima, har relativt små genomstorlekar, säkert jämfört med andra tusenfotingar [22]. Ännu viktigare är det en art som har väckt intresse för ekologiska och utvecklingsstudier [23]–[25], särskilt processen med segmentmönster [26]–[32]. S. maritima är en vanlig tusenfoting i nordvästra Europa, som finns längs kusten från Frankrike till mitten av Norge. Det är en specialist på klapperstensstränder och steniga stränder, som förekommer runt högvattenmärket och livnär sig på de rikliga kräftdjuren och insektslarverna som är förknippade med strandlinjen. Det är den överlägset vanligaste tusenfotingen i dessa livsmiljöer runt de brittiska öarna, och förekommer ibland med tätheter på tusentals per kvadratmeter på lämpliga platser [25]. Ägg kan skördas från dessa rikliga populationer i stort antal med relativt liten ansträngning under sommarens häckningssäsong [27]. De kan födas upp i labbet från äggläggning till åtminstone det första frilevande stadiet, adolescens I [24],[33].

Vissa aspekter av S. maritima biologi är inte gemensam för alla tusenfotingar. Noterbar bland dessa är epimorf utveckling, där embryona kläcks från ägget med det slutliga antalet vuxna benbärande segment. Epimorf utveckling finns i två tusenfotingsordningar: geofilomorfer (inklusive S. maritima) och skolopendromorfer. Däremot visar mer basala klader anamorfisk utveckling och lägger till segment post-embryoniskt [34]. Dessa anamorfa kladdar har relativt få benbärande segment, i allmänhet 15, medan geofilomorfer har många fler, upp till nästan 200 hos vissa arter [6]. Dessa unika egenskaper uppstod förmodligen för minst 300 miljoner år sedan, eftersom de tidigaste fossilerna av de mycket större scolopendromorph tusenfotningarna dateras till övre karbon [35]. Dessa delar samma utvecklingssätt som geofilomorferna och är deras troliga systergrupp. Geophilomorphs är också anpassade till en livsstil under ytan, hela ordningen har förlorat alla spår av ögon [36],[37], men uppenbarligen inte ljuskänslighet [38].

Vi har sekvenserat genomet av S. maritima som en representant för de fylogenetiskt viktiga myriapoderna. I motsats till de intensivt provtagna holometabola insekterna, finner vår analys av detta myriapodgenom konservativa genuppsättningar och konserverad synteny, vilket kastar ljus över allmänna genomiska egenskaper hos leddjuren.


Referenssekvenstyper

Beroende på vilka varianter som ska rapporteras används olika referenssekvensfiler på DNA-, RNA- eller proteinnivå. Det är obligatoriskt att ange typen av referenssekvensfil med hjälp av en prefix före variantbeskrivningen. Godkända referenssekvenstyper är c., g., m., n., o., sid. och r.:

  • g. = linjär genomisk referenssekvens
  • o. = cirkulär genomisk referenssekvens
  • m. = mitokondriell referens (speciellt fall av en cirkulär genomisk referenssekvens)
  • c. = kodande DNA-referenssekvens (baserat på ett proteinkodande transkript)
  • n. = icke-kodande DNA-referenssekvens (baserat på ett transkript som inte kodar för ett protein)

Protein

DNA - genomisk referenssekvens (g.)

  • linjära genomiska referenssekvenser indikeras med användning av en g. prefix genomiska referenssekvenser inkluderar alla linjär DNA-molekyler och är företrädesvis baserade på en ny genombyggnad, t.ex. NC_000023.11 (för Homo sapiens bygg GRCh38/hg39) NOTERA: för diagnostiska tillämpningar en Locus Reference Genomic-sekvens (LRG), t.ex. LRG_199 (se Dalgleish 2010, eller MacArthur 2014, kan användas dessutom
    • när för en gen av intresse ingen LRG finns tillgänglig, bör en efterfrågas.
    • i väntan på” LRG:er bör inte användas, de kan ändras innan de godkänns
    • medan en LRG efterfrågas, rekommenderas användningen av en RefSeq-sekvens, t.ex. NG_012232.1 (se O’Leary 2016)
    • bör inkludera alla kända exoner och täcka alla kända transkript
    • för att underlätta beskrivningen av varianter i omedelbara genflankerande regioner (t.ex. promotorregionen), bör innehålla flera kilobaser av 5' uppströms (rekommenderas är 5 kb) och 3' nedströms (rekommenderad 2 kb) sekvenser

    DNA - cirkulär genomisk referenssekvens (o.)

    • cirkulära genomiska referenssekvenser indikeras med användning av en o. prefix cirkulära genomiska referenssekvenser inkluderar kloroplastsekvenser, plasmidsekvens, viral återkomst, etc. UNDANTAG: de m. prefixet för en mitokondriell referenssekvens är väletablerat, allmänt använt, otvetydigt och rekommenderas därför för rapportering av varianter i en mitokondriell sekvens.

    DNA - mitokondriell referenssekvens (m.)

    • mitokondriella genomiska referenssekvenser indikeras med användning av en m. prefix en mitokondriell referenssekvens är en speciell typ av cirkulär genomisk referenssekvens. Sedan m. prefixet är väletablerat, allmänt använt och otvetydigt användningen av en mitokondriell referenssekvens indikeras med m. prefix
    • den föredragna humana mtDNA-referenssekvensen är Homo sapiens mitokondrien, komplett genom (GenBank NC_012920.1). NOTERA: mtDNA-referenssekvensen är en cirkulär molekyl (se Öppna frågor)

    DNA - kodande DNA-referenssekvens (c.)

    • kodande DNA-referenssekvenser indikeras med användning av en c. prefix
    • (människa) det rekommenderade transkriptet som ska användas för att beskriva varianter i en gen är det transkript som rekommenderas av MANE konsortium.
    • en kodande DNA-referenssekvens är en DNA-referenssekvens, baserad på ett proteinkodande transkript av en gen, som kan användas för nukleotidnumrering med c. prefix. En sådan referenssekvens inkluderar den kodande DNA-sekvensen (CDS) och 5' och 3' UTR-regionerna.
    • den föredragna kodande DNA-referenssekvensen är en Locus Reference Genomic Sekvens (LRG).
      • när ingen LRG finns tillgänglig bör en sådan begäras.
        • anteckna det LRG:er är stabila (ändra aldrig), fastställt efter samråd med olika experter och att alla kända transkriptvarianter och proteinisoformer kan annoteras
        • för LRG_s en kommenterad "avskrift variant 1” beskrivs som ” t1 ", t.ex. LRG_199 t1 :c.11T>G
        • för NC_ eller NG_ referenssekvenser anges det använda annoterade transkriptet inom parentes direkt efter accession.version-numret, vilket ger variantbeskrivningar som NC_000023.10(NM_004006.2):c.357+1G>A eller NG_012232.1(NM_00400): c.357+1G>A
        • exoner som stör huvudläsramen ska inte inkluderas
        • för människa använder EBI följande hierarki för att välja det föredragna transkriptet: 1. längsta CCDS-översättning utan stoppkodon. 2. om nej (1), välj den längsta sammanslagna översättningen Ensembl/Havana utan stoppkodon. 3. om nej (2), välj den längsta översättningen utan stoppkodon. 4. om ingen översättning, välj det längsta icke-proteinkodande transkriptet.

        DNA - icke-kodande DNA-referenssekvens (n.)

        • icke-kodande DNA-referenssekvenser indikeras med användning av en n. prefix
        • (människa) det rekommenderade transkriptet som ska användas för att beskriva varianter i en gen är det transkript som rekommenderas av MANE konsortium.
        • den föredragna icke-kodande DNA-referenssekvensen är en Locus Reference Genomic Sekvens (LRG).
          • när ingen LRG finns tillgänglig bör en sådan begäras.
            • anteckna det LRG:er är stabila (ändra aldrig), fastställt efter samråd med olika experter och att alla kända avskriftsvarianter kan kommenteras
            • för LRG_s den kommenterade "avskrift variant 1” beskrivs som ” t1 ", t.ex. LRG_163 t1 :n.5C>T

            RNA-referenssekvens (r.)

            • RNA-referenssekvenser indikeras med användning av en r. prefix
            • (människa) det rekommenderade transkriptet som ska användas för att beskriva varianter i en gen är det transkript som rekommenderas av MANE konsortium.
            • den föredragna RNA-referenssekvensen är en Locus Reference Genomic Sekvens (LRG).
              • när ingen LRG är tillgänglig bör en sådan begäras.
              • i väntan på” LRG:er bör inte användas, de kan ändras innan de godkänns
              • medan en LRG efterfrågas, rekommenderas användningen av en RefSeq-sekvens, t.ex. NM_004006.2 eller NR_002196.1 (se O’Leary 2016)
              • för LRG_s den kommenterade "avskrift variant 1” beskrivs som ” t1 ", t.ex. LRG_199 t1 :r.11u>g
              • för NC_- eller NG_-referenssekvenser anges det använda annoterade transkriptet inom parentes direkt efter accession.versionsnumret, vilket ger variantbeskrivningar som NC_000023.10(NM_004006.2):r.357_358ins357+1_357+12 eller NG.01(NM020.01(NM02320.0122320. ):r.357_358ins357+1_357+12
              • en kodande DNA-referenssekvens innehåller inte intronsekvenser och kan därför inte användas för att beskriva varianter som påverkar intronsekvenser

              Proteinreferenssekvens (sid.)

              • proteinreferenssekvenser indikeras med användning av en sid. prefix
              • (människa) det rekommenderade transkriptet som ska användas för att beskriva varianter i en gen är det transkript som rekommenderas av MANE konsortium.
              • den föredragna proteinreferenssekvensen är en Locus Reference Genomic Sekvens (LRG).
                • när ingen LRG finns tillgänglig bör en sådan begäras.
                • i väntan på” LRG:er bör inte användas, de kan ändras innan de godkänns
                • medan en LRG efterfrågas, rekommenderas användningen av en RefSeq-sekvens, t.ex. NP_003997.1 (se O’Leary 2016)
                • för LRG_s den kommenterade "protein isoform 1” beskrivs som ” p1 ", t.ex. LRG_199 p1 :p.(Val25Gly)

                Resultat

                I vår pipeline (se Metoder) jämförde vi parvisa anpassningsblockregioner mellan 53 ryggradsdjur och det mänskliga genomet och extraherade de mänskliga genomsekvenserna som visar större konservering med icke-däggdjursryggradsdjur än med de flesta däggdjur. Med likhetströskeln (40 %) och längdtäckningen (40 %) mellan däggdjursgenom och hg19 har vår pipeline hittat 1 467 HGT-regioner längre än 1 000 bps.

                Platsbias för förutspådda HGT-regioner i kromosomer

                Vi lokaliserade dessa HGT-regioner på de mänskliga kromosomerna. Antalet HGT-regioner varierar från kromosom till kromosom och de flesta HGT-regioner är belägna på båda ändarna av kromosomerna (tabell 1, fig. 2). Vi beräknade frekvensen av HGT-regioner i båda ändarna och mitten av kromosomerna, och fann att frekvensen av HGT-regioner i båda ändarna av kromosomerna är betydligt större än mitten av kromosomerna (parade t-testa sid-värde < 0,001).

                Fördelning av förutsagda HGT-regioner i kromosomer av det mänskliga genomet. Placeringen av HGT-regioner i varje kromosom visades. Tröskelvärdena som användes i identifieringspipelinen var identitet 40 %, längd på en anpassning av humant genomregion längre än 1000 bps och täckningen högre än 40 % av de mänskliga genomregionerna. Det totala antalet HGT-regioner var 1 467

                Eftersom HGT-regionerna som vi förutspådde här hände efter splittringen av primater från däggdjur, leder denna upptäckt oss till gissningar att HGT-fragmenten kan vara mer benägna att infogas i båda ändarna av kromosomerna.

                Analys av överlappande gener

                Vi hittade 642 Ensembl-gener överlappade med förutspådda HGT-regioner och typerna av gener identifierades enligt Ensemble-genanteckningen. Den vanligaste typen av gener var "proteinkodning", som täcker 39,1% av HGT-regionerna, följt av "lincRNA" (6,6%) och "antisense" (2,9%). Icke-genregionen täcker 46,1 % av HGT-regionerna. Bakgrundsdata (hela det mänskliga genomet) visade att "proteinkodande" gener täcker 40,7 % av det mänskliga genomet, följt av "lincRNA" (7,0 %) och "antisense" (3,7 %). Icke-genregionerna täcker 45,7 % av det mänskliga genomet (tabell 2, fig. 3a). Därför skiljer sig inte gentypssammansättningen av överlappande gener signifikant från bakgrunden.

                a De typer av gener som överlappar HGT-regioner. De överlappande Ensembl-generna extraherades och Ensembl Source-tabellen genomsöktes. De överlappande generna identifierades som proteinkodande, lincRNA, antisense och annat (bearbetat transkript, bearbetat pseudogen, etc.). Vårt cirkeldiagram jämförde gentypproportionerna av överlappande gener mot hela människans gen som bakgrund. b, c och d Analys av genanrikning. Genanrikningsresultaten visades i tre aspekter, biologiska processer (fig. 2b), cellulära komponenter (fig. 2c) och molekylära funktioner (fig. 2d). Vårt cirkeldiagram jämförde genfunktionstermen för överlappande gener mot hela människans gen som bakgrund

                Genom att använda DAVID för att beräkna anrikningen av överlappande gener upptäckte vi 435 gener som hade en funktionsanteckning i Gene Ontology (GO) databasen och kategoriserade dessa i funktionella grupper och analyserade deras anrikning i vissa funktioner. Med det modifierade Fisher Exact-testet (sid-värde < 0,05), upptäckte vi att en term för genfunktioner är signifikant berikad. Denna term är metalljonbindning (120 gener) (tabell 3). Vi upptäckte också att andelen celldelsgener är större än bakgrunden (Fig. 3c, d). Sammantaget är den mest signifikanta genfunktionen som påverkas av HGT-regioner jonbindning.

                Kromatintillstånd i förutsagda HGT-regioner

                Genom att jämföra kromatintillstånden för förutsagda HGT-regioner och mänskligt genom, fann vi att av HGT-regionerna var 61% heterokromatin, 23% var transkription och 6,8% var undertryckta. Men i det mänskliga genomet var 72% heterokromatin, 20% transkription och 1,6% var undertryckta. (Tabell 4, Fig. 4). Det indikerade att HGT-regioner är mer aktiva än den genomsnittliga transkriptionsnivån och kan spela en viktig funktionell roll i det mänskliga genomet.

                Kromatintillstånd i HGT-regioner. Kromatintillstånden för förutsagda HGT-sekvenser inkluderade heterochromatin (Heterochrom), transkriberad region (Txn), Enhancer, Promoter, Repressed, Insulator och Repetitive. Kromatintillståndsproportionerna för HGT-regioner visades med hela det mänskliga genomet som bakgrund

                Repetitiva element i förutspådda HGT-regioner

                Med hjälp av RepeatMasker-spåret beräknade vi procentandelen HGT-regioner som var kända upprepningar, såväl som andelen av varje typ av upprepningar (enkel upprepning, SINE, LINE, etc.). Andelen upprepningar (genomsnitt: 24 %) i HGT-regioner var lägre än i bakgrundsregionen (genomsnitt: 41 %). Den vanligaste typen av upprepningar är "enkel upprepning", som upptar cirka 10% av hela HGT-regionerna, följt av "låg komplexitetsupprepning" vid 4,5%. Bakgrundsdata visar, i mänskligt genom, de vanligaste typerna av upprepningar är LINE- och SINE-upprepningar, med minimal mängd "enkla upprepningar" (Fig. 5a).

                a Fördelningarna av upprepningar av HGT-regioner. Proportionerna av olika typer av upprepningar, inklusive SINEs, LINEs, LTRs, DNA-repetitioner, enkla upprepningar, låg komplexitet, etc. i förutsagda HGT-regioner visades. Varje HGT-sekvens och frankeringsregion delades upp i fem regioner: fönster 1 (w1, 300 bps uppströms sekvenserna), fönster 2 (w2, början 300 bps av HGT-regionerna), fönster 3 (w3, mittområdena av HGT-regioner), fönster 4 (w4, de avslutande 300 bps av sekvenserna) och fönster 5 (w5, 300 bps nedströms om sekvenserna). Dessutom fördelningen av upprepade typer för HGT-regioner och hela det mänskliga genomet. b Fördelningen av upprepningar inom HGT-regionerna. Vi beräknade de genomsnittliga proportionerna av olika typer av upprepningar i de fem regionerna i våra sekvenser och ritade den genomsnittliga proportionskurvan för olika typer av upprepningar inom HGT-regionerna och 1 kbps uppströms och nedströms om HGT-regioner. Vi kan dela in X-axeln i sex intervall: intervallet från 0 till 300 bps betyder 1 kbps uppströms om HGT-regioner, intervallet från 300 bps till 600 bps betyder början på 300 bps av HGT-regioner, intervallet från 600 bps till 900 bps betyder mittområdena i HGT-regioner, intervallet från 900 bps till 1200 bps betyder de avslutande 300 bps av HGT-regionerna, intervallet från 1200 bps till 1500 bps betyder 300 bps nedströms HGT-regionerna, intervallet från 1500 bps till 1700 bps bps betyder hela det mänskliga genomet. c och d GC-innehåll och histonmodifiering inom HGT-regionerna. Vi beräknade GC-innehållet och ritade GC-innehåll och histonmodifikationskurva för våra sekvenser med ett liknande tillvägagångssätt som avsnittet ovan vi gjorde för upprepningar i Fig.5c, d. Våra histonmärken inkluderar H3K4Me1, H2A.Z, H3K4Me3, H3K9Ac, H3K27Ac, ​​H3K27Me3, etc.

                Jämfört med de flankerande regionerna innehåller de förutsagda HGT-regionerna högre procentandelar av "enkel upprepning" och "upprepning med låg komplexitet". Men för de andra typerna av upprepningar, såsom "LTR", "SINE" och "LINE" upprepningar, är procentandelen i HGT-regioner lägre än uppströms- och nedströmsregionerna (Fig. 5b).

                GC-innehåll av förutsagda HGT-regioner

                Vi beräknade den genomsnittliga andelen CG-innehåll i förutspådda HGT-regioner och deras 300 bps uppströms och nedströms regioner. Den genomsnittliga GC-procenten för HGT-regioner är högre än uppströms- och nedströmsregionerna (Fig. 5c).

                Histonmodifikationsanalys av förutspådda HGT-regioner

                Vi beräknade den genomsnittliga procentandelen av regulatoriska relaterade histonmodifieringssignaler i förutspådda HGT-regioner och deras 300 bp uppströms och nedströms regioner. Resultaten visade inga signifikanta drag av histonmodifiering i HGT-regioner (Fig. 5d).

                Filogenetisk trädanalys

                Vår pipeline kan hitta HGT-regioner som har större bevarande med icke-däggdjursryggradsdjur än med de flesta däggdjur. Det är också viktigt att notera att vi tillåter mindre än åtta däggdjur som innehåller homologa sekvenser med det mänskliga genomet. För de flesta HGT-regioner vi har hittat har vissa däggdjur faktiskt homologa sekvenser med hg19 och de flesta av dem är primater. Detta fenomen indikerade horisontell genöverföring mellan primaternas förfader och ryggradsdjur som inte är däggdjur.

                För att ytterligare förstå HGT-mekanismen extraherade vi homolog sekvens av de förutsagda horisontella genöverföringssekvenserna i däggdjur och icke-däggdjursarter, konstruerade sekvensfylogenetiskt träd och jämförde det med artfylogenetiskt träd. Jämförelse av två fylogenetiska träd visade att i de flesta fall var två fylogenetiska träd inte konsekventa. Sedan jämförde vi trädet som konstruerats från förutspådda HGT-regioner med trädet som konstruerats från artgenom med hjälp av programmet SPRIT som uppskattade antalet nödvändiga subtree prune and retransplants (SPR) för att omvandla ett träd till ett annat. Det var uppenbart från SPRIT-utdata att för de flesta HGT-regioner krävs minst tre eller fyra SPR för att förklara de homologa sekvensernas fylogenetiska trädtopologi. Varje SPR kan motsvara minst en HGT-händelse, därför drar vi slutsatsen att minst tre eller fyra interspecies HT-händelser har inträffat under ryggradsdjurens evolutionära historia. Dessutom, när vi verifierade möjligheten av dessa HGT-händelser, fann vi att det fanns minst en HGT-händelse mellan förfadern till alla eller de flesta primater och icke-däggdjuret.

                Med likhetströskeln (60%) och längdtäckningen (0) mellan däggdjursryggradsdjur och hg19 har vi extraherat 22 fragment med längder över 1000 bps. Dessa sekvenser är mest sannolikt HGT-regioner. Vi upptäckte att ett av dessa fragment, range = chr11:71072901–71074379, har homologsekvens i fyra primater (mänskliga, schimpans, gorilla och orangutang), ett däggdjur (kinesisk hamster), en Lepidosauria (Ödla) och en fisk (Lamprey). När vi har sökt i Nukleotidsamlingsdatabasen för att hitta de homologa sekvenserna av våra HGT-regioner i andra arter, fann vi att flera fiskar (t.ex. Cyprinus carpio, Lethenteron camtschaticum etc.) har de homologa sekvenserna, vilket antyder att fisk kan vara ursprunget till denna HGT-region. Genom att jämföra de fylogenetiska träden byggda av HGT-fragment och artgenom, upptäckte vi att minst tre förutspådda HGT-händelser krävdes för att förklara inkonsekvensen. Vi trodde att det kunde hända några HGT-händelser mellan fiskar och primater, mellan fiskar och ödlor eller mellan primater och kinesisk hamster (Fig. 6). Därför drog vi slutsatsen att tre interspecies HGT-händelser kan ha inträffat under den evolutionära historien för detta HGT-fragment.

                Ett exempel på en potentiell HGT. Vi anpassade homologisekvenserna för ett HGT-fragment (intervall = chr11:71072901–71074379) och konstruerade det fylogenetiska trädet. Vi jämförde det fylogenetiska trädet vi konstruerade med hjälp av homologisekvenser med artens fylogenetiska träd och lyfte fram skillnaden mellan två fylogenetiska träd. De röda kanterna representerar ursprungsarten för dessa HGT-fragment. De blå kanterna representerar målarten till vilken denna HT-sekvens överfördes. De röd pilar visar den horisontella överföringsprocessen mellan två arter

                De homologa sekvenserna i mediaarter

                Vi kunde inte ta bort interpolationen av förlorad gen. Däremot kan fler bevis hittas för att stödja HGT för dessa regioner vi identifierade.När vi sökte i Nukleotidsamlingsdatabasen för att hitta de homologa sekvenserna av de förutsagda HGT-fragmenten kunde vi hitta dem i vissa arter, såsom parasiter, bakterier eller svampar, som kan vara mediaarterna för HGT-framsteg. Resultaten visade att de flesta av våra förutsagda HGT-fragment har homologsekvenser i människor, fiskar, fåglar, fjäderfä och boskap. Bland de 22 mest tillförlitliga förutsagda HGT-regionerna har 6 homologsekvenser i minst en trematodparasit hos människa (tabell 5), som t.ex. Echinostoma och Schistosoma. Både Echinostoma och Schistosoma kan infektera människor och andra däggdjur. Vissa arter av Schistosoma kan också infektera fåglar och krokodiler. Andra trematoder, som dock inte har någon homolog sekvens av de förutsagda HGT-fragmenten, kan också infektera fiskarna [29]. Några av våra förutspådda HGT-fragment kan hittas i primater och vissa arter av fiskar och fåglar. Från vår fylogenetiska trädanalys förutspådde vi att det kan hända flera HGT-händelser bland fiskar, fåglar, primater och några däggdjur, vilket får oss att tro att fiskarna och fåglarna kan vara ursprunget till HGT-framsteg och trematodparasiter eller deras vanliga förfader kan vara mediaarten för HGT-procedurerna.


                Adam, E., Deak, M., Kay, S., Chua, N.H. och Nagy, F. 1993. Sequence of a tobacco (Nicotiana tabacum) gen som kodar för typ A fytokrom. Plant Physiol. 101: 1407–1408.

                Adam, E., Kozma-Bognar, L., Dallmann, G. och Nagy, F. 1995. Transkription av tobaksfytokrom-A-gener initieras vid flera startställen och kräver flera cis-verkande reglerande element. Plant Mol. Biol. 29: 983-993.

                Adam, E., Kozma-Bognar, L., Schäfer, E. och Nagy, F. 1997. Tobaksfytokromer: gener, struktur och uttryck. Växtcellsmiljö. 20: 678–684.

                Ahn, S.N. och Tanksley, S.D. 1993. Jämförande länkkartor över ris- och majsgenomet. Proc. Natl. Acad. Sci. USA 90: 7980–7984.

                Austin, D.F. och Lee, M. 1996a. Jämförande kartläggning i F2:3 och F6:7 generationer av kvantitativa egenskaper för spannmålsutbyte och skördekomponenter i majs. Theor. Appl. Genet. 92: 817–826.

                Austin, D.F. och Lee, M. 1996b. Genetisk upplösning och verifiering av kvantitativa egenskaper för blomning och växthöjd med rekombinanta inavlade linjer av majs. Genome 39: 957–968.

                Causse, M., Fulton, TM, Cho, YG, Ahn, SN, Chunwongse, J., Wu, K., Xiao, J., Yu, Z., Ronald, PC, Harrington, SE, Second, GA, McCouch SR och Tanksley, S.D. 1994. Mättad molekylär karta över risgenomet baserad på en interspecifik backcrosspopulation. Genetics 138: 1251–1274.

                Chao, S., Baysdorfer, C., Heredia-Diaz, O., Musket, T., Xu, G. och Coe, E.H. 1994. RFLP-kartläggning av partiellt sekvenserade löv-cDNA-kloner i majs. Theor. Appl. genet. 88: 717–721.

                Childs, K.L., Miller, F.R., Cordonnier-Pratt, M.-M., Pratt, L.H., Morgan, P.W. och Mullet, J.E. 1997. The sorghum photoperiod sensitivity gen, Ma3, kodar för en fytokrom B. Plant Physiol. 113: 611-619.

                Christensen, A.H. och Quail, P.H. 1989. Struktur och uttryck av en majsfytokromkodande gen. Gene 85: 381-390.

                Kyrka, G.M. och Gilbert, W. 1984. Genomisk sekvensering. Proc. Natl. Acad. Sci. USA 81: 1991–1995.

                Clapham, D.H., Kolukisaoglu, H.Ñ., Larsson, C.-T., Qamaruddin, M., Ekberg, I., Wiegmann-Eirund, C., Schneider-Poetsch, H.A.W. och von Arnold, S. 1999. Fytokromtyper i Picea och Pinus. Uttrycksmönster för PHYA-relaterade typer. Plant Mol. Biol. 40: 669-678.

                Cowl, J.S., Hartley, N., Xie, D.-X., Whitelam, G.C., Murphy, G.P. och Harberd, N.P. 1994. Den PHYC genen av Arabidopsis. Frånvaro av det tredje intronet som finns i PHYA och PHYB. Plant Physiol. 106: 813–814.

                Davison, A.J. och Moss, B. 1989. Structure of vaccinia virus early promotors. J. Mol. Biol. 210: 749-769.

                Dehesh, K., Franci, C., Sharrock, R.A., Somers, D.E., Welsch, J.A. och Quail, P.H. 1994. Den Arabidopsis fytokrom A-genen har flera startställen för transkription och ett promotorsekvensmotiv som är homologt med repressorelementet i enhjärtbladiga fytokrom A-gener. Photochem. Photobiol. 59: 379-384.

                Dehesh, K., Tepperman, J., Christensen, A.H. och Quail, P.H. 1991. phyB är evolutionärt bevarad och konstitutivt uttryckt i risplantor. Mol. Gen. Genet. 225: 305–313.

                Devlin, P.F., Patel, S.R. och Whitelam, G.C. 1998. Fytokrom E påverkar internodförlängning och blomningstid i Arabidopsis. Plant Cell 10: 1479–1487.

                Devlin, P.F., Rood, S.B., Somers, D.E., Quail, P.H. och Whitelam, G.C. 1992. Photophysiology of the långsträckt internod (ein) mutant av Brassica rapa: den ein mutant saknar en detekterbar fytokrom B-liknande polypeptid. Plant Physiol. 100: 1442–1447.

                Geballe, A.P. 1996. Translationell kontroll förmedlad av uppströms AUG-kodon. I: J.W.B. Hershey, M.B. Mathews och N. Sonenberg (Eds.) Translational Control, Cold Spring Harbor Laboratory Press, Plainview, NY, sid. 173.

                Goosey, L., Palecanda, L. och Sharrock, R.A. 1997. Differentiella uttrycksmönster av Arabidopsis PHYB, PHYD, och PHYE fytokroma gener. Plant Physiol. 115: 959–969.

                Halliday, K.J., Thomas, B. och Whitelam, G.C. 1997. Uttryck av heterologa fytokromer A, B eller C i transgena tobaksväxter förändrar vegetativ utveckling och blomningstid. Plant J. 12: 1079–1090.

                Hanelt, S., Braun, B., Marx, S. och Schneider-Poetsch, H. 1992. Fytokromevolution: ett fylogent träd med den första kompletta sekvensen av fytokrom A från en kryptogamisk växt (Selaginella martensii Vår). Photochem. Photobiol. 56: 751-758.

                Hershey, H.P., Barker, R.F., Idler, K.B., Lissemore, J.L. och Quail, P.H. 1985. Analys av klonat cDNA och genomiska sekvenser för fytokrom: fullständig aminosyrasekvens för två genprodukter uttryckta i etiolerade Avena. Nucl. Acids Res. 13: 8543–8559.

                Hershey, H.P., Barker, R.F., Idler, K.B., Murray, M.G. och Quail, P.H. 1987. Nukleotidsekvens och karakterisering av en gen som kodar för fytokrompolypeptiden från Avena. Gene 61: 339–348.

                Heun, M., Kennedy, A.E., Anderson, J.A., Lapitan, N.L.V., Sorrells, M. et al. 1991. Konstruktion av restriktionsfragmentlängd polymorfismkarta för korn (Hordeum vulgare). Genome 34: 437–447.

                Heyer, A. och Gatz, C. 1992a. Isolering och karakterisering av en cDNA-klon som kodar för potatis typ A fytokrom. Plant Mol. Biol. 18: 535–544.

                Heyer, A. och Gatz, C. 1992b. Isolering och karakterisering av en cDNA-klon som kodar för potatis typ B fytokrom. Plant Mol. Biol. 20: 589–600.

                Hughes, J., Lamparter, T. och Mittmann, F. 1996. CpPHY2 (PHYCER2), en "normal" fytokrom i Ceratodon. Plant Physiol. 112:446.

                Kaneko, T., Matsubayashi, T., Sugita, M. och Suguira, M. 1996. Fysiska kartor och genkartor över den encelliga cyanobakterien Synekokocker sp. stam PCC6301 genom. Plant Mol. Biol. 31: 193–201.

                Kay, S.A., Keith, B., Shinozaki, K., Chye, M.-L. och Chua, N.-H. 1989a. Risfytokromgenen: struktur, autoreglerat uttryck och bindning av GT-1 till en konserverad plats i 5′ uppströmsregionen. Plant Cell 1: 351–360.

                Kay, S.A., Keith, B., Shinozaki, K. och Chua, N.-H. 1989b. Sekvensen för risfytokromgenen. Nucl. Acids Res. 17: 2865–2866.

                Kendrick, R.E., Kerchoffs, L.H.J., van Tuinen, A. och Koornneef, M. 1997. Fotomorfogena mutanter av tomat. Plant Cell Environ. 20: 746–751.

                Kendrick, R.E. och Kronenberg, G.H.M. 1994. Photomorphogenesis in Plants, 2:a upplagan, Kluwer Academic Publishers, Dordrecht, Nederländerna.

                Kosambi, D.D. 1944. Uppskattningen av kartavstånd från rekombinationsvärden. Ann. Genet. 12: 172–175.

                Lagarias, D.M., Wu, S.-H., Lagarias, J.C. 1995. Atypisk fytokromgenstruktur i grönalgen Mesotaenium caldariorum. Plant Mol. Biol. 29: 1127–1142.

                Lander, E.S., Green, P., Abrahamson, J., Barlow, A., Daly, M., Lincoln, S.E. och Newburg, L. 1987. MAPMAKER: ett interaktivt datorpaket för kartor över experimentella och naturliga populationer. Genomics 1: 174–181.

                Lazarova, G.I., Kerckhoffs, L.H.J., Brandstädter, J., Matsui, M., Kendrick, R.E., Cordonnier-Pratt, M.-M. och Pratt, L.H., 1998a. Molekylär analys av en PHYA i vildtyp och fytokrom Tillräckliga mutanter av tomat. Plant J. 14: 653–662.

                Lazarova, G.I., Kubota, T., Frances, S., Peters, J.L., Hughes, M.J.G., Brandstädter, J., Széll, M., Matsui, M., Kendrick, R.E., Cordonnier-Pratt, M.-M. och Pratt, L.H., 1998b. Karakterisering av tomat PHYB1 och identifiering av molekylära defekter i fyra mutanta alleler. Plant Mol. Biol. 38: 1137–1146.

                Ló pez-Juez, E., Nagatani, A., Tomizawa, K.-I., Deak, M., Kern, R., Kendrick, R.E. och Furuya, M. 1992. Den gurka långa hypokotylmutanten saknar en ljusstabil phyB-liknande fytokrom. Plant Cell 4: 241–251.

                Mathews, S. och Sharrock, R.A. 1996. Fytokrom-genfamiljen i gräs (Poaceae): en fylogeni och bevis för att gräs har en delmängd av de loci som finns i tvåhjärtade angiospermer. Mol. Biol. Evol. 13: 1141–1150.

                Mathews, S. och Sharrock, R.A. 1997. Fytokrom gendiversitet. Växtcellsmiljö. 20: 666-671.

                Mathews, S., Lavin, M. och Sharrock, R.A. 1995. Utveckling av fytokromgenfamiljen och dess användbarhet för fylogenetiska analyser av angiospermer. Ann. Fröken Bot. Trädgård 82: 296–321.

                Matz, M., Shagin, D., Bogdanova, E., Britanova, O., Lukyanov, S., Diatchenko, L. och Chenchik, A. 1999. Amplifiering av cDNA-ändar baserat på mallbyteeffekt och utsteg PCR. Nucl. Acids Res. 27: 1558–1560.

                Maucher, P.H. 1994. Molecularbiologie der Phytochrome des Farns Anemi phyllitidis (L.) SW. Avhandling, University of Ulm, Ulm, Tyskland.

                McCouch, S.R., Kochert, G., Yu, Z.H., Wang, Y.Z., Khush, G.S., Coffman, R. och Tanksley, S.D. 1988. Molekylär kartläggning av riskromosomer. Theor. Appl. Genet. 76: 815–829.

                Ming, R., Liu, S.-C., Lin, Y.-R., da Silva, J., Wilson, W., Braga, D., van Deyzne, A., Wenslaff, TF, Wu, KK Moore, PH, Burnquist, W., Sorrells, ME, Irvine, JE och Paterson, AH 1998. Detaljerad anpassning av sackarum- och sorghumkromosomer: jämförande organisation av närbesläktade diploida och polyploida genom. Genetik 150: 1663–1682.

                O'Donoughue, L.S., Wang, Z., Roder, M., Kneen, B., Legget, M. et al. 1992. En RFLP-baserad karta över havre på en korsning mellan två diploida taxa (Avena atlantica x A. hirtula). Genome 35: 765–771.

                Åh, S.-K., Scott, M.P. och Sarnow, P. 1992. Homeotic gen Antennpedia mRNA innehåller 5'-icke-kodande sekvenser som ger translationsinitiering genom intern ribosombindning. Genes Dev. 6: 1643–1653.

                Paterson, A.H., Lin, Y.-R., Li, Z., Schertz, K.F., Doebley, J.F., Pinson, S.R.M., Liu, S.-C., Stansel, J.W. och Irvine, J.E. 1995. Konvergent domesticering av spannmålsgrödor genom oberoende mutationer vid motsvarande genetiska loci. Science 269: 1714–1717.

                Pereira, M.G., Lee, M., Bramel-Cox, P., Woodman, W., Doebley, J. och Whitkus, R. 1994. Konstruktion av en RFLP-karta i sorghum och jämförande kartläggning i majs. Genome 37: 236–243.

                Pratt, L.H., Cordonnier-Pratt, M.-M., Kelmenson, P.M., Lazarova, G.I., Kubota, T. och Alba, R.M. 1997. Fytokromgenfamiljen i tomat (Solanum lycopersicum L.). Växtcellsmiljö. 20: 672–677.

                Qin, M., Kuhn, R. och Quail, P.H. 1997. Överuttryckt fytokrom C har liknande fotosensorisk specificitet som fytokrom B men en distinkt förmåga att förbättra primär bladexpansion. Plant J. 12: 1163–1172.

                Vaktel, P.H. 1994a. Fotosensorisk perception och signaltransduktion i växter. Curr. Opin. Genet. Dev. 4: 652-661.

                Vaktel, P.H. 1994b. Fytokroma gener och deras uttryck. I: R.E. Kendrick och G.H.M. Kronenberg (Eds.) Photomorphogenesis in Plants, 2nd ed., Kluwer Academic Publishers, Dordrecht, Nederländerna, s. 71–104.

                Vaktel, P.H. 1997a. En framväxande molekylär karta över fytokromerna. Växtcellsmiljö. 20: 657–665.

                Vaktel, P.H. 1997b. Fytokromerna: en biokemisk mekanism för signalering på plats? BioEssays 19: 571–579.

                Quail, P.H., Boylan, M.T., Parks, B.M., Short, T.W., Xu, Y. och Wagner, D. 1995. Phytochromes: photosensory perception and signal transduction. Science 268: 675–680.

                Reed, J.W., Nagpal, P., Poole, D.S., Furuya, M. och Chory, J. 1993. Mutationer i genen för receptorn för rött/rött ljus fytokrom B förändrar cellförlängning och fysiologiska svar genomgående Arabidopsis utveckling. Plant Cell 5: 147–157.

                Sato, N. 1988. Nukleotidsekvens och uttryck av fytokromgenen i Pisum sativum: differentiell reglering genom ljus av flera transkript. Plant Mol. Biol. 11: 697–710.

                Schneider-Poetsch, H.A.W., Kolukisaoglu, Ñ., Clapham, D.H., Hughes, J. och Lamparter, T. 1998. Non-angiosperm phytochromes and the evolution of vascular plants. Physiol. Växt. 102: 612-622.

                Schwer, B., Mao, X. och Shuman, S. 1998. Accelererat mRNA-sönderfall i villkorade mutanter av jäst-mRNA-täckningsenzym. Nucl. Acids Res. 26: 2050–2057.

                Senior, M.L., Chin, E.C.L., Lee, M., Smith, J.S.C. och Stuber, C.W. 1996. Enkla sekvensupprepningsmarkörer utvecklade från majssekvenser som finns i GenBank-databasen: kartkonstruktion. Crop Sci. 36: 1676–1683.

                Sharrock, R.A. och Quail, P.H. 1989. Nya fytokromsekvenser i Arabidopsis thaliana: struktur, evolution och differentiellt uttryck av en växtreglerande fotoreceptorfamilj. Genes Dev. 3: 1745–1757.

                Shen, B., Carneiro, N., Torres-Jerez, I., Stevenson, B., McCreery, T., Helentjaris, T., Baysdorfer, C., Almira, E., Ferl, RJ, Habben, J. och Larkins, BA 1994. Partiell sekvensering och kartläggning av kloner från två majs-cDNA-bibliotek. Plant Mol. Biol. 26: 1085–1101.

                Shima, D.T., Kuroki, M., Deutsch, U., Ng, Y.-S., Adamis, A.P. och D'Amore, P.A. 1996. Musgenen för vaskulär endotelial tillväxtfaktor. J. Biol. Chem. 271: 3877-3883.

                Singh, K., Ishii, T., Parco, A., Huang, N., Brara, D.S. och Khush, G.S. 1996. Centromerkartläggning och orientering av den molekylära länkkartan för ris (Oryza sativa L.). Proc. Natl. Acad. Sci. USA 93: 6163–6168.

                Somers, D.E. och Quail, P.H. 1995. Temporala och rumsliga uttrycksmönster av PHYA och PHYB gener i Arabidopsis. Plant J. 7: 413–427.

                Tahir, M., Kanegae, H. och Takano, M. 1998. PHYC (Fytokrom C) gen i ris: isolering och karakterisering av en komplett kodande sekvens. Plant Physiol. 118: 1535.

                Wada, M., Kanegae, T., Nozue, K. och Fukuda, S. 1997. Cryptogram phytochromes. Växtcellsmiljö. 20: 685–690.


                Varför är positionerna för enkla sekvensupprepningar vid genen och relaterade transkriptsekvenser olika? - Biologi

                Mutationsprocess: Mikrosatelliter är användbara genetiska markörer eftersom de tenderar att vara mycket polymorfa. Det är inte ovanligt att ha mänskliga mikrosatelliter med 20 eller fler alleler och heterozygositeter (Hexp = genmångfald, D) av > 0,85. Varför är de så varierande? Anledningen verkar vara att deras mutationer uppträder på ett sätt som skiljer sig mycket från det för "klassiska" punktmutationer (där en substitution av en nukleotid till en annan sker, såsom ett G som ersätter ett C). Mutationsprocessen i mikrosatelliter sker genom vad som kallas glidreplikation. Om vi ​​föreställer oss de upprepade enheterna (t.ex. en AC-dinukleotidupprepning) som pärlor på en kedja, kan vi föreställa oss att två strängar under replikering skulle kunna glida relativt positioner lite, men ändå lyckas få blixtlåset att gå ner i pärlorna. Den ena eller den andra strängen kan sedan förlängas eller förkortas genom addition eller excision av nukleotider. Resultatet blir en ny "mutation" som innefattar en upprepad enhet som är en pärla längre eller kortare än originalet. Tanken att lägga till eller subtrahera en upprepning sannolikt är lättare än att lägga till eller subtrahera två eller flera pärlor är grunden för att använda Stegvis mutationsmodell (SMM) i motsats till Modell med oändliga alleler (JAG ÄR). En fördel med SMM (åtminstone i teorin) är att skillnaden i storlek då förmedlar ytterligare information om allelers fylogeni. Under IAM är de enda två staterna "samma" och "olika". Under SMM har vi ett potentiellt kontinuum av olika likheter (samma storlek, lika i storlek, mycket olika i storlek). Men om SMM inte håller, kan vi ha det sämre med att använda det - det kan faktiskt vara mycket missvisande. Även om den underliggande mutationsprocessen till stor del är stegvis, är det inte svårt att se hur drift kan påverka fördelningen av allelstorlekar på ett sätt som nästan helt skulle ogiltigförklara SMM (visualisera detta genom att undersöka figurerna 6.1 och 6.2 i föreläsning 6).

                  Lokusspecifik (i motsats till multi-locus-markörer som minisatelliter eller RAPD)
                  Samdominant (heterozygoter kan särskiljas från homozygoter, till skillnad från RAPD och AFLP som är "binära, 0/1")
                  PCR-baserad (betyder att vi bara behöver små mängder vävnad som fungerar på mycket nedbrutet eller "urgammalt" DNA)
                  I hög grad polymorf ("hypervariabel") - ger ett betydande mönster
                  Användbar vid en skalor från individuellt ID till finskaliga fylogenier

                1) Extrahera DNA från vävnad (brett utbud av möjliga metoder beroende på vävnadstyp)

                2) Fragment genomet. Skär vårt genomiska DNA till fragment av lämplig storlek med restriktionsenzymer. I allmänhet är restriktionsenzymer som producerar genomsnittliga fragmentstorlekar i intervallet 300-600 bp det önskade målet.

                3) Föra in. Sätt in fragmenten i plasmider. Detta steg tillåter kloning av fragmenten - vilket ger många kopior av de 300-600 bp bitarna som vi har infogat i plasmiderna. För att få en lite mer detaljerad uppfattning om hur plasmider fungerar som kloningsvektorer, slå upp termerna i fetstil på sidan med ordlista. PUC19 är en vanligen använd plasmid för denna typ av analys. Varför PUC19? De restriktionsplatser i PUC19 är kända (så att de ligerade DNA-fragmenten senare kan skäras ut) och det replikerar väl i en bakteriekultur.

                4) Tallrik plasmiderna på ett nylonmembran.

                5) Sond membranet med märkta oligonukleotider av önskvärda upprepningar (t.ex. AC10).

                6) Kultur de positiva klonerna (plasmidfragmenten som band med oligoproberna).

                7) Skära insertionen ut ur plasmiderna med restriktionsenzymer och kör ut dem på en agarosgel.

                  a) till kontrollera förekomsten av upprepningen och
                  b) att tillåta oss uppskatta storleken av insatsen.
                  a) "kompatibilitet" för de två primrarna (de kan inte vara komplementära eftersom det skulle orsaka korsbindning, de måste ha mycket liknande längder och smälttemperaturer),
                  b) undvikande av stoppkoder eller andra sekvenser som skulle orsaka PCR-fel,
                  c) undvikande av primerinitieringsställen som inte kommer att binda bra, undvikande av palindromer (sekvenser som har samma sekvens från båda ändar) och ett antal andra.
                  d) totala amplifierade produktlängder på 100-250 bp, så att de är genomförbara för de sekvenseringsgeler eller automatiserade genotyper som vi kommer att använda för visualisering.
                  e) undvikande av upprepningar nära slutet av den sekvenserade regionen. Vissa av de positiva klonerna vi har sekvenserat kan ha bra repeterande enheter, men vara för nära slutet av sekvensen. Vi saknar då tillräckligt med flankerande region för att designa en primer. Det är delvis därför vi vill ha fragment på 300-600 bp -- korta nog för att vara genomförbara för sekvensering, men tillräckligt långa för att minska sannolikheten för att upprepningen blir en "cliff-hanger".

                11) Beställa de lokusspecifika primrarna (i allmänhet kommer dessa att vara 20-30 bp sektioner av de flankerande regionerna inte omedelbart intill den upprepade enheten).

                Här är ett exempel på en mikrosatellitsekvens för scrub-jays som innehåller en upprepad enhet och framåt- och bakåtprimerplatser.
                SJR3 [FSJ]
                GCCAAGCTTGCATGCCTGCAGGTCGACTCT AGAGGATCCCCAAGTGTATGT GCATACACGTG
                CACACACACACACACACACACA GAGGGTGTGCACATGTGCATGCACACTCCAAGAGACAGTG
                CCTAGTAAAGTGTCTTC AGCACCATCTGCAGCAAACAG GTTCTGCAAAAAACCAATCCCAACTGA
                TGTTCCCACAGTGACACTGT

                Från början av framåtriktad primer till slutet av omvänd primer, ovanstående är 131 bp Repeat är CA11
                De Upprepningsenheten är rödmarkerad , medan fram- och omvänd p r i m e r s är markerade i blå och grön . Vi skulle skicka ut en beställning för primersekvenserna (i vårt fall lägger vi till ytterligare 19 bp M13 svans, vilket gör att vi kan fästa fluorescerande nukleotider/dNTP till vår amplifierade produkt i PCR). En laser i vår sequencer/automatiserade genotyper detekterar sedan fluorescensen, vilket är hur vi visualisera de band som utgör de alleldata som vi hoppas kunna samla in och analysera.

                1) Extrahera DNA. Man börjar ofta med att på något sätt bryta upp vävnaden (t.ex. genom att mala in flytande kväve). Alternativ för extraktionsprocessen inkluderar klassiska fenol-kloroformextraktioner, saltbaserade extraktioner och en mängd olika kommersiella kit. Vi blir av med proteiner och andra icke-DNA-vävnadskomponenter i detta steg. En typisk analys kan innefatta att extrahera DNA från var och en av individerna i en lokal population på 30 individer.

                2) Förstärka. Vi lägger till en mycket liten mängd av vart och ett av våra 30 prover av extraherat DNA till en PCR-cocktail för amplifiering i en termocykler. Detta är ett "magiskt" steg som har revolutionerat molekylärbiologin. Vi börjar med nästan inget DNA och slutar med tillräckligt mycket för att vi kan se det på en gel! Olika "cocktail"-recept finns - de innehåller vanligtvis det termofila bakteriella enzymet Taq polymeras (essentiellt), dNTP-blandningen (nukleotider som tillåter massiv replikering av vårt mål-DNA), magnesiumklorid och de fluorescensmärkta dNTP:erna (dessa kommer att binda till den speciellt tillsatta M13- eller T3-svansen och lysa upp under lasern och bilda band av DNA-alleler dyker upp på gelén).

                3) Ladda. Vi laddar våra 30 amplifierade produkter i separata banor i en stor vertikal polyakrylamidgel. Vi laddar även flera körfält med ett DNA stege -- fragment av känd storlek av amplifierat DNA av känd kvantitet/koncentration. En vanlig stege är lambdafag skuren med restriktionsenzymer för att ge en serie fragment. De nyare kapillärsekvenserna använder ingen gel.

                4) Kör sequencern. Vi kör den amplifierade produkten genom sequencern tills alla alleler har hunnit springa av lasern, som lyser upp de fluorescerande nukleotiderna och gör att band lyser upp på gelén (eller går digitalt-direkt till datorn). Sekvenseraren genererar både en analog bild (för äldre, gelbaserade sekvenserare) och digitalt lagrad data om fragmentens storlek.

                5) Optimera (variationer på steg 2-4). Det krävs ofta mycket krångel för att få PCR-förhållandena rätt för en speciell kombination av primer, DNA, termocykler och sequencer. Viktiga variabler inom optimering inkluderar:
                temperatur (primersekvensen kommer att ha en förutspådd smälttemperatur men det som faktiskt fungerar kan vara högre eller lägre),
                de PCR-programmerade tiderna för denaturerings-, glödgnings- och förlängningssteg
                magnesiumkloridkoncentrationer

                Alternativa visualiseringsmetoder inkluderar "handbyggda" polyakrylamid-sekvenseringsgeler med silverfärgning, CyberGreen-färgning, etidiumbromidfärgning eller radioaktiv märkning. Många av dessa involverar otäcka kemikalier (EtBr) eller radioaktivitet, så vi känner oss lyckliga över att använda en relativt ren och säker procedur.

                Fig. 8.1. Stiliserat diagram över en elektroforetisk gel för mikrosatelliter. En ström drar ner amplifierat DNA
                "banor" i polyakrylamidgelen. Fragmenten kan sedan separeras efter storlek (bp = baspar) och individer
                kan genotypas för sin allelsammansättning (homozygot eller heterozygot för en eller flera alleler). Här
                den vänstra banan har en "stege" av fragment av känd storlek, den andra banan har DNA från en individ
                (genotyp före Kristus) och den tredje banan har DNA från en andra individ (genotyp annons). Kör flera loci
                ger en mängd genetisk information om individer, populationer eller arter.

                E. Hur analyserar vi den alleliska informationen? För en lite mer detaljerad beskrivning gå till sidan för genetisk analys.
                Du kan också ladda ner mitt Word-dokument på programvaran Web Genetic. Luikart och England (1999) ger en (äldre) översikt över tillvägagångssätt. För användning av alternativa markörer, se papper (främst från TREE) av Sunnucks (2000), Mueller och Wolfenbarger (1999 AFLP), Campbell et al. (2003 AFLP) och Brumfield et al. (2003 SNPs - single nucleotide polymorphisms).

                  1) Traditionella populationsgenetiska verktyg
                    Heterozygositet (Hobs, Hexp = D)
                    Hardy-Weinbergs jämvikt
                    Kopplingsojämvikt
                    FST och andra F-statistik
                    Genetiska avstånd (Cavalli-Sforza ackord, Neis 1972 och 1978 avstånd)
                    Uppskattningar av 4Ne m och 4Nem. (m för mutation, m för migration)

                  2) Mikrosatellitspecifika åtgärder (förlitar sig mest på SMM, stegvisa mutationsmodeller)

                  (delta mu i kvadrat) av Goldstein et al. 1995
                  DSW av Shriver et al. (1995)
                  RST av Slatkin (1995) implementerad av Goodman (1997)
                  av Michalakis och Excoffier (1996)


                  Bioinformatikordlista - S

                  Satellit-DNA/enkel sekvens-DNA
                  Mycket repetitiv DNA-sekvens generellt baserad på en kort sekvens (7-20 nukleotider) som upprepas upp till en miljon gånger i det haploida genomet. Finns vanligtvis i heterokromatiska områden, ofta förknippade med centromeren.

                  Sense strand
                  I en gen, den DNA-sträng som har sekvensen som finns i RNA-molekylen. Kallas även den kodande, positiva eller icke-mallsträngen.

                  Hagelgevärssekvensering
                  En strategi för att sekvensera hela genom, den var banbrytande av det vinstdrivande företaget Celera. Genomer skärs i mycket små bitar, klonas till plasmider, sekvenseras och sätts sedan samman till hela kromosomer eller genom. Denna metod är snabbare än hierarkisk hagelgevärssekvensering men mer benägen för monteringsfel.

                  Enkel upprepning
                  En nukleotidupprepning med en eller ett litet antal baser, såsom AAAAAAAAAAAA eller CACACACACA.

                  SINUS
                  Short Interspersed Nuclear Elements är en klass av DNA-segment som härrör från omvänt transkriberade gener och som vanligtvis finns i eukaryota genom.

                  SNP
                  Enkelnukleotidpolymorfism en skillnad i DNA-sekvens vid en enda bas mellan två sekvenser.

                  Skarvning
                  Processen genom vilken introner avlägsnas och exoner förenas för att producera ett moget, funktionellt RNA från ett primärt transkript. Vissa RNA är självsplitsande, men de flesta kräver ett specifikt ribonukleoproteinkomplex för att katalysera reaktionen.

                  Skarvningsacceptorplats
                  Gränsen mellan en intron och exonen omedelbart nedströms (dvs på 3'-sidan av intronen).

                  Skarvningsdonatorplats
                  Gränsen mellan en intron och exonen omedelbart uppströms (dvs på 5'-sidan av intronen).

                  Skarvningstransesterifieringsmekanism
                  En kemisk reaktion som förenar 5'-fosfatet i den första nukleotiden som är belägen vid 5'-änden av nedströmsexonen med 3'-hydroxylgruppen i den sista nukleotiden i uppströmsexonen och bildar en fosfodiesterbindning.

                  Startkodon
                  Det första kodonet i en kodande sekvens. Hos eukaryoter är detta nästan alltid ATG, som kodar för metionin.

                  Starta webbplats
                  Nukleotiden vid vilken transkription startar, vanligtvis betecknad som position +1 med hänvisning till genen som transkriberas.

                  Stoppa kodon
                  Ett kodon som specificerar avslutningen av peptidsyntes som ibland kallas "nonsens-kodon", eftersom de inte specificerar någon aminosyra.


                  STR
                  Korta tandemrepetitioner. På många ställen i genomet finns korta sekvenser (


                  Titta på videon: Vaje za križ (Juli 2022).


Kommentarer:

  1. Alwalda

    Ta dig inte till hjärtat!

  2. Samusida

    Jag är ledsen, men enligt min mening görs misstag. Skriv till mig i PM, det pratar med dig.

  3. Hymen

    Jag anser att du begår ett fel. Jag kan försvara ståndpunkten. Skriv till mig i PM.



Skriv ett meddelande