Information

Kan jag göra en populationsgenetisk analys från ofullständigt protein?

Kan jag göra en populationsgenetisk analys från ofullständigt protein?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Jag har en datauppsättning av fasta-sekvenser. Dessa proteiner är inte kompletta (Mina sekvenser har 700 nukleotider, medan kompletta sekvenser har 1725 nukleotider) Jag skulle vilja veta om jag kan göra en populationsgenetisk analys från det (som TAJIMA-D-test) och liknande.


Det beror mycket på vilken typ av analys du vill utföra. För en Tajima's D behöver du bara en enda nukleotidsekvens i ett urval av individer, så ja det kan du. Huruvida sekvensen kom från en gen eller någon annan sekvens är inte relevant för om du kan beräkna Tajimas D (även om typen av sekvens troligen kommer att påverka den resulterande D).


Brist på mångfald i genetisk forskning ett problem

Illustration av Kimberly Carney / Fred Hutch News Service

När Human Genome Project avslutades redan 2003, hänvisade dess toppforskare Dr. Francis Collins, nu chef för National Institutes of Health, till det som "det första utkastet till den mänskliga livsboken."

Collins, och vetenskapen i allmänhet, har sedan dess erkänt att det var en grov första utkastet eftersom de flesta av bidragen "skrivits" av personer med europeisk härkomst.

Bristen på mångfald i genetikforskningen – som nyligen nämndes i tidskrifter som Cell och behandlades om PBS – belystes igen denna vecka med en omfattande multicenteranalys av ett konsortium av forskare, leds av genetiker, epidemiologer och biostatistiker vid Fred Hutchinson Cancerforskningscentrum. Deras resultat publicerades på onsdagen i tidskriften Nature.

Konsortiet, som heter PAGE (förkortning för Population Architecture using Genomics and Epidemiology), analyserade data från nästan 50 000 amerikanska deltagare av icke-europeisk härkomst för att bland annat avgöra om Human Genome Projects "utkast"-resultat kunde generaliseras över förfäder grupper.

Det korta svaret: De kan inte.

Denna nya analys fann ännu fler bevis för att storskaliga genomiska studier – som används för allt från läkemedelsutveckling till att ta reda på en individs sjukdomsrisk – måste inkludera olika, multietniska populationer för att exakt representera genetiska sjukdomsrisker i alla populationer. Att inte göra det är vilseledande och potentiellt farligt.

Fred Hutchs Dr. Ulrike "Riki" Peters, en senior forskare på PAGE-projektet. Det långvariga multicenterforskningsprojektet lyfte fram bristen på mångfald inom genetisk forskning i en ny artikel. Fred Hutch filfoto

"Genetisk forskning bedrivs huvudsakligen i populationer med europeisk härkomst, vilket leder till en partiskhet i de genetiska riskvarianter som har identifierats", säger Dr. Ulrike "Riki" Peters, biträdande direktör för Fred Hutchs Public Health Sciences Division och senior forskare på området PAGE-projekt. "Vi visar partiskheten och vi visar att detta kan korrigeras genom att studera icke-europeiska minoritetsbefolkningar."

The Hutchs Dr. Chris Carlson, en annan senior författare, sa att PAGE-teamet i grunden försökte avgöra om nuvarande polygena eller genetiska riskpoäng (en poäng baserad på genetiska riskvarianter som används för att förutsäga risken för sjukdom) från människor med europeisk härkomst kunde extrapoleras exakt till minoriteter.

"Om du ska ha nästa generations medicin och härleda polygena riskpoäng, bör dessa riskpoäng vara lika exakta oavsett vad en individs genetiska härkomst är," sa han. "Och det är de inte.

"Vår studie bevisar med en storskalig verklig dataanalys att dessa riskpoäng underpresterar i icke-europeiska populationer. Det är det som gör denna tidning viktig."

Ofullständiga uppgifter … om alla

Human Genome Project baserades på genetisk sekvensering av en handfull frivilliga, varav de flesta var från europeisk härkomst, så det är en viss mening att de initiala uppgifterna var begränsade. Ur vetenskaplig synvinkel är det dock extremt problematiskt - särskilt som genomomfattande associationsstudier, eller GWAS, fortsätter att samla in data främst från exakt samma population.

Enligt väldokumenterad forskning i Nature och på andra håll kommer cirka 78 procent av data som används i GWAS från personer med europeisk härkomst. Men just den gruppen utgör bara 16 procent av världens befolkning.

Eftersom vårt genom ständigt förändras och utvecklas som svar på miljömässiga och biologiska signaler, finns det alltid genetisk variation från person till person och befolkning till befolkning. Vissa genetiska varianter är helt obetydliga andra kan ha en djupgående effekt på en persons hälsa (tänk en-gen, eller Mendelska, sjukdomar som Huntingtons sjukdom).

Oftare kan små förändringar i hundratals eller till och med tusentals gener lägga till en risk för - eller ett skydd mot - en viss sjukdom. GWAS-studier, som identifierar genmutationer eller varianter involverade i sjukdom, är grunden för undersökningar av biologin hos komplexa egenskaper, läkemedelsutveckling och till och med kliniska riktlinjer.

Men om de genetiska data som används i dessa studier är begränsade till en population – personer av europeisk härkomst – så saknas det ett stort antal genetiska varianter, antingen för att de saknas hos människor av europeisk härkomst eller för att de är närvarande, men bara kl. låga frekvenser.

Dr Charles Kooperberg, chef för Biostatistics Program vid Fred Hutch, var en annan senior författare på den nyligen publicerade studien. Fred Hutch filfoto

Det betyder att terapier och läkemedel som utvecklats på basis av dessa varianter med största sannolikhet kommer att fungera bäst på människor som delar samma härkomst. Och polygena riskpoäng, som används för att beräkna vår genetiska risk för hjärt-kärlsjukdomar, diabetes, sicklecellanemi, cancer och andra sjukdomar, är mindre värdefulla - och mindre exakta - för stora delar av befolkningen.

"Kommersiella DNA-tester kommer att berätta vad din risk är för hjärtsjukdom, inåtväxande tånaglar eller vad som helst, men dessa riskpoäng är baserade på resultaten från människor av europeisk härkomst", säger Dr Charles Kooperberg, chef för Hutch's Biostatistics Program och en annan senior författare. "Så förutsägelserna är mycket mer korrekta för européer."

Ännu mer oroande: Den fördomen är nu inbakad i systemet och kan skada ännu fler människor genom att förvärra befintliga sjukdomar och skillnader i hälsovård.

"Även om det finns en delad biologi är de nuvarande modellerna oprecisa", säger Hutch-forskaren Stephanie Bien, som också arbetade med studien. "Och det är de Mer oprecis om du inte har europeisk härkomst. Du måste plugga Allt befolkningar att se saker som är relevanta i Allt befolkningar.”

Slutför SIDAN

PAGE-konsortiet, som grundades för ett decennium sedan och finansierades av National Institutes of Healths National Human Genome Research Institute, samlar stora grupper av studiedeltagare för att extrahera kraftfulla fynd om vår "epidemiologiska arkitektur", det vill säga vem som är mer benägen att få vilken sjukdom eller hälsoproblem, eller vem som kan vara skyddad från det, på grund av deras unika genetiska sammansättning.

PAGE använde grupper från en handfull stora studier för denna analys, inklusive Women's Health Initiative, Hispanic Community Health Study / Study of Latinos (HCHS/SOL), Multiethnic Cohort (MEC) från Kalifornien och Hawaii och BioMe™ BioBank.

Sammantaget representerade gruppen 22 216 självidentifierade latinamerikaner/latinoer 17 299 afroamerikaner 4 680 asiater 3 940 infödda Hawaiianer 652 indianer och 1 052 individer som själv identifierade sig som andra.

PAGE-teamet körde en GWAS av 26 separata kliniska och beteendemässiga fenotyper, eller egenskaper, inom sina 50 000 multietniska deltagare för att se hur varje persons genetiska härkomst påverkade var och en. Egenskaperna inkluderade allt från höjd till midja-till-höft-förhållande till fastande insulinnivå till antal vita blodkroppar till hög- eller lågdensitetslipoprotein (aka HDL och LDL) till kaffekonsumtion.

Med hjälp av ett verktyg som de hade skapat känt som en Multi-Ethnic Genotyping Array (MEGA), kunde forskarna få en djupare biologisk förståelse av den genetiska grunden för många komplexa sjukdomar, inklusive diabetes, stroke, fetma och hjärt-kärlsjukdomar. De skapade också en plan för att analysera genetiska associationer i olika populationer framåt och identifierade 27 nya egenskaper-variant associationer.

"Som vi förutsåg, genom att undersöka tidigare underrepresenterade populationer, hittade vi nya härkomstspecifika associationer, vilket främjar vår förståelse av egenskapernas genetiska arkitektur och understryker vikten av att inkludera olika populationer i dessa studier," sa Peters.

Fred Hutch-forskaren Stephanie Bien Fred Hutch-filfoto

Hur sjukdomar skiljer sig i populationer

Forskarna hittade en sådan variant i genen HBB, som ger instruktioner för att göra beta-globin, en komponent i det större proteinet hemoglobin. HBB är känt för sin roll i sicklecellanemi och för dess förmåga att påverka prestandan hos vissa HbA1c-analyser, som används för att testa för glukoskontroll vid diabetes.

Forskarna upptäckte varianten på latinamerikanska/latinos, medan den tidigare bara hade rapporterats hos afroamerikaner.

Detta innebär att tester som körs på latinamerikanska/latinos med denna variant kan "potentiellt leda till att utövare felaktigt tror att en patient har uppnått glukoskontroll, vilket ökar risken för typ 2-diabeteskomplikationer", skrev de i sin uppsats.

C-reaktivt protein eller CRP - en biomarkör som finns i blod som används för att upptäcka, diagnostisera och behandla olika inflammationsrelaterade sjukdomar och tillstånd (tänk infektion, lupus, reumatoid artrit, etc.) - var ett annat exempel där resultaten av vanliga tester kunde vara skev i vissa populationer.

"De med afrikansk härkomst är mer benägna att bära en genetisk variant som sänker deras nivå av C-reaktivt protein", säger Bien, Hutch-forskaren. "Så du kanske lider av reumatoid artrit, men dina CRP-nivåer ligger under de diagnostiska kriterierna, vilket betyder att du inte kommer att få den medicin du behöver utskriven. Som med HBA1c, kanske du tror att du inte har någon underliggande sjukdom. Men du har faktiskt en genetisk variant som maskerar eller förvränger just den här biomarkören."

Med andra ord kan ofullständiga GWAS-studier skada stora delar av befolkningen.

"Genomomfattande studier med olika populationer kan hjälpa till att jämna ut villkoren i klinisk praxis och utöka räckvidden för precisionsmedicin till individer som annars inte skulle inkluderas", säger Kooperberg.

Polygena riskpoäng "bör vara lika exakta oavsett vad en individs genetiska härkomst är, säger Fred Hutchs doktor Chris Carlson, en annan seniorförfattare på den nya tidningen. Fred Hutch filfoto

Carlson pekade på resultaten med flera egenskaper som ett nyckelexempel på varför korrekt genetisk data är avgörande.

"Genetisk förutsägelse av kolesterolnivåer eller höjd kanske inte är avgörande på kliniken, eftersom du kan mäta dessa egenskaper snabbt och billigt," sa han. "Men dessa egenskaper ger insikt i hur väl genetiska riskmodeller kan prestera för sjukdomar som för närvarande inte har bra biomarkörer, allt från autoimmuna sjukdomar till cancer."

De flesta av de genetiska varianterna som utvärderades i projektet upptäcktes hos européer, så utan ytterligare utvärdering hos icke-européer leder användning av dessa varianter i en genetisk modell till svagare förutsägelser hos icke-européer.

"Över 26 egenskaper var effektstorleken i genomsnitt cirka 58 procent hos afroamerikaner," sa Carlson. "Så i genomsnitt förutsäger du mindre exakt i denna minoritetsbefolkning än i europeiska amerikaner."

Detta är en bias som måste korrigeras och kan korrigeras, sa forskarna.

Tänk: genetisk kontinuum

Som vanligt ger vetenskapen bra perspektiv.

"I en modern mångfaldig befolkning som USA är genetisk härkomst ett kontinuum," sa Peters. "Du måste omfamna det och använda det för att hjälpa till att avslöja nya vetenskapliga insikter."

Men inom detta kontinuum är var och en av oss en unik individ, med våra egna individuella risker.

"Det finns både sociala och genetiska komponenter till skillnader i minoritetshälsa", säger Carlson. "Men när det kommer till genetiken för hur vi tolkar en patients Hba1c, handlar det inte om huruvida du är afroamerikan eller latinamerikansk eller europeisk. Det handlar om huruvida du är bärare för sicklecell.

"Om vi ​​ska göra individualiserad medicin, då måste vi veta vilken genetisk variation som spelar roll," sa han. "Och vi måste studera dessa genetiska faktorer i alla populationer."


Referenser

Zhou, P. et al. Ett utbrott av lunginflammation i samband med ett nytt coronavirus av troligt fladdermusursprung. Natur https://doi.org/10.1038/s41586-020-2012-7 (2020).

Lu, R. et al. Genomisk karakterisering och epidemiologi av 2019 års nya coronavirus: implikationer för virusursprung och receptorbindning. Lansett https://doi.org/10.1016/S0140-6736(20)30251-8 (2020).

Hofmann, H. et al. Mottaglighet för SARS coronavirus S proteindriven infektion korrelerar med uttryck av angiotensinomvandlande enzym 2 och infektion kan blockeras av löslig receptor. Biochem. Biophys. Res. Commun. 319, 1216–1221 (2004).

Li, W. et al. S-proteinerna från humant coronavirus NL63 och allvarligt akut respiratoriskt syndrom coronavirus binder överlappande regioner av ACE2. Virologi 367, 367–374 (2007).

Li, W. et al. Receptor och virala determinanter för SARS-coronavirus anpassning till humant ACE2. EMBO J. 24, 1634–1643 (2005).

Zhao, Y. et al. Encellig RNA-expressionsprofilering av ACE2, den förmodade receptorn för Wuhan 2019-nCoV. bioRxiv. https://doi.org/10.1101/2020.01.26.919985 (2020).

Rothe, C. et al. Överföring av 2019-nCoV-infektion från en asymtomatisk kontakt i Tyskland. N. Engl. J. Med. https://doi.org/10.1056/NEJMc2001468 (2020).

GTEx-konsortiet. Pilotanalys av Genotype-Tissue Expression (GTEx): multivävnadsgenreglering hos människor. Vetenskap 348, 648–660 (2015).

Auton, A. et al. En global referens för mänsklig genetisk variation. Natur 526, 68–74 (2015).

Taliun, D. et al. Sekvensering av 53 831 olika genom från NHLBI TOPMed Program. bioRxiv https://doi.org/10.1101/563866 (2019).

Cai, G. Skillnad i tobaksanvändning i genuttryck av ACE2, receptorn för 2019-nCov. Förtryck på https://doi.org/10.20944/preprints202002.0051.v1 (2020).

Imai, Y. et al. Angiotensinomvandlande enzym 2 skyddar mot allvarlig akut lungsvikt. Natur 436, 112–116 (2005).


Resultat

Mndmutant fenotyp

Originalet mnd mutant genererades av röntgenmutagenes vid vårt institut på 1950-talet [13]. Den mest iögonfallande egenskapen hos mnd växter är deras förkortade plastochron, det vill säga en snabbare bladinitiering. Mutanter har i genomsnitt två gånger fler löv än vildtypsväxter som ett resultat av en snabbare uppkomst av löv (Figur 1). Dessutom minskar culm internod längder i mutanten. Trots det större antalet internoder (åtta till nio i mutanten mot fyra till fem i vildtypen), minskas växthöjden med cirka en tredjedel under fältförhållanden, men inte i växthuset (Figur 1d). Förutom avstånden ändras även bladens form hos mutanten: bladen är smalare och mer upprättstående jämfört med vildtypen. Ytterligare egenskaper hos mnd är ett ökat antal jordfräsar (vegetativa skottgrenar som härrör från laterala meristem) och kortare spikar (Figur 1b Ytterligare fil 1: Figur S1).

Fenotypiska egenskaper hos mnd växter. (a) Mutanter (höger) har ett betydligt högre antal noder jämfört med vildtypen (vänster) och uppvisar en semi-dvärgväxtvana. (b) Öronlängden reduceras under fältförhållanden (vänster: vildtyp, höger: mutant). (c) Bladbildningen i tidiga utvecklingsstadier går snabbare i mnd växter (höger) jämfört med vildtypen (vänster). (d) Muterade växter (höger) odlade under växthusförhållanden har fler internoder utan en dvärgande fenotyp. Vildtypen visas till vänster.

Allelfrekvenskartläggning

Vi antog en strategi som liknar ShoreMap [5] och MutMap [8] metoderna som inspekterar den genomtäckande fördelningen av allelfrekvens i fenotypiska bulkar av en F2 population utvecklad genom att korsa mutanten till en vildtypsgenotyp (ytterligare fil 2: figur S2). Avkomma till en korsning mellan en mnd växt med en vildtypsväxt av kultivar (cv.) Barke självbehandlades för att få en F2 befolkning på 100 individer. De mnd allelen segregerade i denna population som en monogen recessiv egenskap (19 mutanter, 81 vildtypsväxter, χ 2 = 1,92, P värde = 0,17). DNA från 18 muterade växter och 30 slumpmässigt utvalda vildtypsväxter kombinerades till två pooler, som utsattes för exominfångning och efterföljande högkapacitetssekvensering på Illumina HiSeq2000, vilket gav 82 miljoner och 70 miljoner 2 × 100 bp läspar för mutanten och vildtypspooler. Avläsningar kartlades på hela genomet hagelgevär (WGS) montering av cv. Barke [23] och singelnukleotidpolymorfismer (SNPs) upptäcktes. Visualiseringen av allelfrekvenser vid SNP-positioner längs den fysiska och genetiska kartan av korn avslöjade en enda skarp topp på den långa armen av kromosom 5H, där frekvensen av den muterade allelen ökade till över 95 % och sjönk till cirka 30 % i vildtypen pooler (Figur 2a). Observera att förhållandet mellan antalet växter som är heterozygota vid mnd locus och antalet av de som är homozygota för vildtypsallelen förväntas vara 2:1 i vildtypsmassan. Utvalda SNP: er i intervallet 80 till 110 cM i kartan över [21] konverterades till singelmarkörsanalyser (Ytterligare fil 3: Tabell S2). Genetisk kartläggning i F2 befolkningen bekräftade att dessa markörer är tätt kopplade till mnd fenotyp (Figur 2b).

Kartläggning-för-sekvens. (a) Frekvensen av den alternativa allelen i förhållande till Barke-referensen i de två fångstpoolerna visualiseras längs den integrerade fysiska och genetiska kartan över korn [23]. (b) Tio SNP från målintervallen omvandlades till CAPS-markörer och genotypades på hela F2 kartlägga befolkningen. Antalet rekombinanter mellan markörerna (översta axeln) och markörpositioner i genetiskt förankrade WGS-montering [24] (nedre axeln) anges. Sekvenskontiger som bär stora (>150 bp) förmodade deletioner visas som grå rektanglar. (c) Läs av djupet för MND (MLOC_64838.2) i de två fångstpoolerna. Positionerna för de två exonerna av MND i WGS contig 49382 visas som gröna rektanglar. Längst ner visas antalet sekvensavläsningar per basposition för mutantpoolen (röd) och vildtyppoolen (svart). På grund av en enda heterozygot växt som felaktigt inkluderades i mutantmassan, är MND också närvarande vid låg lästäckning i mutantpoolen. Observera att den högsta täckningstoppen är i den korta intronen (130 bp) av MND på grund av ett högre antal redundanta infångningssonder i ändarna av de två exonerna.

Läsdjupanalys identifierar en trolig kandidatgen

Eftersom röntgenmutagenes vanligtvis inducerar stora deletioner [26], frågade vi våra sekvensdata för exominfångningsmål som täcks av sekvensläsningar i vildtyppoolen, men inte i mutantpoolen. Som genmodeller och exome capture-mål ges som koordinater på WGS-enheten av cv. Morex, avläsningar kartlades igen på denna sammansättning och avläsningstäckning beräknades vid varje basposition och medelvärdesberäknade över kontinuerligt täckta intervall motsvarande fångstmål. Marköranalyser avslöjade att vi felaktigt hade inkluderat en heterozygot växt i mutantmassan, vilket bekräftades genom fenotypisk analys av motsvarande F3 familj. Därför förväntade vi oss ett litet antal sekvensläsningar vid mnd locus i mutantpoolen som härrör från den enda heterozygoten. I genomskala identifierade vi 435 intervaller (kontiger av hela genomet hagelgevär som bär respektive exome-fångstmål) som var minst 150 bp och uppfyllde våra ganska avslappnade kriterier för potentiella deletioner (Ytterligare fil 4: Tabell S3). Av dessa mål kartlades 18 av POPSEQ [24] till det brett definierade intervallet (5H, 80 cM - 110 cM), 278 kartlades till andra regioner i genomet och 139 var omappade. Av alla 435 intervaller var 48 lokaliserade på kontiger av WGS-enheten av cv. Morex [23] med högt konfidensgener förutspått. Alla utom två av dessa gener hade en funktionell anteckning. Bland contigs som bär förmodat raderade fångstmål och lokaliserade till vårt målintervall, bar sex högkonfidensgener (Figur 2b, Tabell 1). En av dessa, contig 49382, var förankrad vid 96 cM i POPSEQ-kartan [24] och därmed närmast allelfrekvenstoppen (97%) i mutantbulken vid 97 cM (Ytterligare fil 5: Tabell S1). Dessutom hyste contig 49382 två förmodat raderade regioner, bland dem det längsta detekterade intervallet. Notera att en enda stor deletion snarare skulle dyka upp som flera mindre borttagna målintervall eftersom exominfångningsmål endast är disjunkta exoner, och introner är varken representerade i mutanten eller vildtypen. De borttagna regionerna på contig 49382 överlappade med de två exonerna av högkonfidensgenen MLOC_64838.2 annoterad som "Cytochrome P450" (Figur 2c). Denna gen var den enda gen som förutspåddes på contig 49382. En BLAST-sökning av proteinsekvensen mot ris- och Arabidopsis-genomet identifierade medlemmar av CYP78A-familjen av cytokrom P450-enzymer. En av dessa gener, ris CYP78A11, är känd som PLASTOCHRON1 (PLA1) [27]. Som riset pla1 fenotyp (snabb bladinitiering, minskad bladstorlek och planthöjd) påminner mycket om korn mnd, ansåg vi MLOC_64838.2 som en lovande kandidat.

Mutantanalys bekräftar MLOC_64838.2 som HvMND

PCR-amplifiering av kandidaten lyckades i sorterna Morex och Barke, men misslyckades i mutanten MHOR474. Däremot kunde vi amplifiera gener som förutspåddes vara nära MLOC_64838.2 genom kollinearitet till modellgräset Brachypodium distachyon[28] och var förankrade genetiskt inom kartläggningsintervallet. Screening av vår TILLING (Targeting Local Lesions IN Genomes) population [18] identifierade 20 EMS-mutanter med synonyma och 17 mutanter med icke-synonyma förändringar. En mutant som bar en SNP (G261A) som ledde till ett för tidigt stoppkodon i heterozygott tillstånd (tabell 2) valdes ut för att kontrollera de fenotypiska effekterna. Bland avkommorna till denna växt var 15 plantor heterozygota, två var homozygota för vildtypsallelen och fem var homozygota för mutantallelen. Alla de homozygota mutanta växterna (och endast dessa) visade ett signifikant ökat antal internoder, karakteristiskt för mnd fenotyp (Figur 3a,b). Dessutom introgressioner av två Bowman nästan isogena linjer kännetecknas som mnd (BW520 och BW522) hade kartlagts till kromosomarm 5HL tidigare [17]. Sanger-sekvensering av MLOC_64838.2 i BW520 avslöjade en icke-synonym SNP i den kodande sekvensen. Genen kunde inte amplifieras i BW522, medan alla syntetiska gener var närvarande (tabell 3). Vi beställde 37 mutantaccessioner från Nordiska genbanken (NordGen) som beskrevs som mnd. Återsekvensering av vår kandidat i dessa linjer avslöjade fyra aminosyraförändringar, 16 för tidiga stoppkodon, en störning av ett splitsningsställe, en 107 bp deletion i den andra exonen och sex fullständiga deletioner (ytterligare fil 6: Tabell S4). När de odlades i växthuset visade alla mutanter mnd fenotyp (Figur 3c-e). Vi ansåg detta stora antal molekylära lesioner som hittats i flera oberoende mutantsamlingar som avgörande bevis för att funktionsförlust av MLOC_64838.2 ligger till grund för mnd fenotyp och namngav denna gen som HvMND.

mnd mutanter. TILLING mutanter (b) med ett för tidigt stoppkodon inom MND-generna visar en signifikant snabbare bladinitiering jämfört med vildtypen (a). mnd mutanter i samma genetiska bakgrund (cv. Kristina) med en enda aminosyraförändring (c), en fullständig gendeletion (d), och ett för tidigt stoppkodon (e). Typen av mutation påverkade inte svårighetsgraden av mnd fenotyp under växthusförhållanden. Den fullständiga tillväxten (vänster) och en enda isolerad rorkult (höger) visas för varje planta i (c, d och e).

MND är en medlem av CYP78A-underfamiljen av cytokrom P450-enzymer

MND är en medlem av CYP78A-familjen av cytokrom P450-enzymer. Vi hittade fyra CYP78A-gener i hela genomet hagelgevärsaggregat av korn (Figur 4). Även om mnd fenotyphärmar pla1, MND är inte en ortolog av PLA1. Ortologen av MND i ris, Os09g09g3594, är belägen i en syntenisk region på riskromosom 9 [28] och visar 75% identitet med MND på proteinnivå. PLA1 har inte en tydlig ortolog i korn (Figur 4), men har ungefär 54 % aminosyrasekvensidentitet med MND och två andra CYP78A-gener, MLOC_68312.1 och MLOC_68718.1. Eftersom PLA1 har ortologer i majs och Arabidopsis (Figur 3), kan en gammal ortolog av PLA1 ha gått förlorad i Poaceae härstamning efter att den delats från ris och majs. I linje med denna hypotes hittade vi inte PLA1-ortologer i korn, vetets stamceller, T. urartu och Ae. tauschii, och B. distachyon.

Fylogenetisk analys av CYP78A-gener. Ett fylogenetiskt träd med 38 proteinsekvenser av CYP78A från olika arter konstruerades med MEGA5. Förkortade artnamn anges före genidentifierare: Aegilops tauschii (Aet), A. thaliana (Ath), B. distachyon (Bd), H. vulgare (Hv), Oryza sativa (Os), T. urartu (ti), Zea mays (Zm). Gennamn ges efter identifierare om sådana finns. CYP75B1-genen TT7 av A. thaliana användes som en utgrupp. Bootstrap-metoden användes för att testa för statistisk signifikans för grenar. Procentandelen av replikatträd där de associerade taxa klustrades ihop i bootstrap-testet (1 000 replikat) visas bredvid grenarna. Grenar med otillräckligt stöd för bootstrap (<50%) kollapsades för att få ett konsensusträd.

Vi letade upp uttrycksprofilen för HvMND och andra korngener av CYP78A-familjen i de åtta vävnaderna som undersökts av The International Barley Genome Sequencing Consortium [23]. Uttryck av CYP78A-gener hittades över alla vävnader, med olika gener i familjen som mest förekommande i olika vävnader (Figur 5). Bland de fyra CYP78A-generna, HvMND var den mest allmänt förekommande och uttrycktes i alla prover, även om endast svagt uttryck detekterades i korn under utveckling 15 dagar efter antes.

Uttryck av MND och tre andra CYP78A gener från korn. Transkriptöverflöd ges som fragment per kilobas exon per miljon läser kartlagda (FPKM) över åtta olika vävnader eller utvecklingsstadier. En gen ansågs uttryckt om dess FPKM-värde var över tröskeln på 0,4 [23] (markerad med grå linje). All data hämtades från [23].

En fysisk karta över mndställe

Det kan finnas oro för den allmänna tillämpbarheten av vår strategi på andra kartbaserade kloningsprojekt. Isoleringen av MND underlättades av fakta att dess homolog PLA1 i modellriset är välkaraktäriserad och att fenotypen av PLA1 knockout-mutanter speglar mnd. Om MND dessutom inte hade varit representerad i exome capture-målutrymmet, hade ingen uppenbar kandidat kunnat pekas ut. I det här fallet har fördelningen av allelfrekvens bekräftad genom genetisk kartläggning av markörer utvecklats från in silico varianter skulle endast ha avgränsat ett målintervall för att bli föremål för ytterligare granskning. Som föreslogs tidigare bör den genomomfattande fysiska kartan över korn i princip undanröja behovet av att konstruera lokala fysiska kartor genom kartbaserad kloning för att avgränsa kandidatgener [29]. BAC-undersökningssekvensdata associerade med den fysiska kartan av korn [23] kan användas för att associera markörsekvenser eller kandidatgener med fysiska kontiger, vars minsta kakelvägar [29] sedan kan sekvenseras. Därför var det vår avsikt att testa om informationen från sekvenseringsexperimentet med bulk-segregant var tillräcklig för att välja en fysisk kontig av den genomomfattande fysiska kartan för avgränsning av mållokusregionen och identifiering av en kandidatgen.

Vi tillämpar denna strategi för att hämta den fysiska kartan runt MND-lokuset (Figur 6). De viktigaste stegen mot detta mål var identifieringen av BAC-kontiger av korngenomets fysiska karta som hyser MND såväl som dess flankerande markörer, sekvensering av de minimala plattsättningsvägarna (MTPs) för dessa contigs och utföra integrativ sekvensanalys för att förutsäga genmodeller på BAC. sekvenssammansättningar. Först identifierade vi genom BLAST-sökningar mot sekvensresurserna integrerade i den fysiska kartan över korn [23] två fingeravtryckskontiger, contig_45097 och contig_46058, som innehöll två gener vars ortologer i Brachypodium var de närmaste grannarna till ortologen av MND, såväl som de samsegregerande och en distala flankerande markörerna M4 och M5. På samma sätt befanns contig_1020 hysa markör M3, flankerande MND i proximal riktning. Vi hittade inga BAC-sekvenser med hög likhet med MND. Detta är inte oväntat eftersom endast 1,1 Gb genomisk sekvensinformation (ungefär 20 % av korngenomet) tillhandahålls direkt av den fysiska kartan över korn (6 278 sekvenserade BAC-kloner, BAC-ändsekvenser) [23]. En BAC som hyser MND och tilldelas fingeravtryck contig_45097 identifierades emellertid genom BAC-biblioteksscreening.

En fysisk karta över mnd ställe. (a) Fingeravtryck (FP) contigs som bär flankerande och samsegregerande markörer (trianglar) såväl som MND-genen (diamant). Den fysiska kartan är inte sammanhängande mellan contigs 1020 och 45097. En skalbar stapel för alla paneler visas överst. (b) Sekvenserade BAC. BAC placerades enligt deras FPC-koordinater [23]. (c) Genmodeller och ortologa Brachypodium gener. Spår (uppifrån och ned) markerar positionerna för (1) genmodeller som finns i båda de novo förutsägelser med Augustus och IBSC-genmodellerna (grön - högt konfidens (HC) IBSC-gener, blå - lågkonfidens (LC) IBSC-gener) (2) genmodeller endast förutspådda av Augustus (3) genmodeller förutsagda av IBSC (grönt) - HC-gener blå - LC-gener) (4) ortologa Brachypodium gener, endast de fyra sista siffrorna i genidentifieraren Bradi4g3xxxx anges. (d) SNP:er som upptäckts genom exomsekvensering och förankrade till BAC-sekvenser är markerade med vertikala linjer.

Därefter satte vi ihop MTP:erna för dessa tre fysiska contigs (Figur 6a) genom att sekvensera 38 BACs (Figur 6b Ytterligare fil 7: Tabell S5) på Illumina HiSeq2000. Enstaka BAC:er sattes ihop till "fas-1" kvalitet, det vill säga oordnade kontigsekvenser. Alla-mot-alla BLAST-sökningar av BAC-sammansättningar bekräftade angränsningen av contigs 46058 och 45097 såväl som överlappningen mellan dem. Contig_1020 överlappade inte någon av dem. Markörerna M4 och M5 var lokaliserade på en sammanhängande sekvensställning, vilket gjorde det möjligt för oss att uppskatta ett ungefärligt förhållande mellan fysiskt och genetiskt avstånd vid MND-lokuset på cirka 740 kb per cM.

I följande steg förutspåddes genmodeller (Figur 6c) på upprepade maskerade BAC-aggregat med användning av en ab initio metod och genom anpassning av genmodeller definierade på Morex WGS-enheten [23]. Totalt definierades 98 icke-redundanta genmodeller på BAC-sekvenserna. Tjugofem gener hittades med båda metoderna, 35 förutspåddes bara ab initio och representerar troligen pseudogener. Trettioåtta gener inkluderades endast i IBSC-annoteringen, majoriteten (23 gener) av dem klassificerades som lågkonfidenstranskript, som också är förmodade pseudogener eller genfragment. Genordning var till stor del kolinjär till Brachypodium med några mindre omarrangemang (Figur 6c). Synteny gjorde det möjligt för oss att orientera contig_1020 relativt de andra två contigs.

Slutligen försökte vi uppskatta storleken på gapet som fanns kvar mellan fingeravtryckskontigerna 1020 och 45097 och att hitta ytterligare BAC som kan överbrygga det. Som 10 Brachypodium gener mellan Bradi4g 35770 och Bradi4g35860 saknas, gapet mellan contigs 1020 och 45097 kan vara upp till flera hundra kilobaser, eller så är gapet litet och kan representera en region med bristande kollinaritet mellan korn och Brachypodium. Vi länkade samman WGS-kontiger som bar kornortologerna från de "försvunna" Brachypodium gener för att avsluta sekvenser av BAC som var en del av två korta fysiska kontiger (45219 och 45903) med storlekarna 227 och 236 kb (tabell 4). Dessa kontiger bär ortologerna från Bradi4g35840 och Bradi4g35800, vilket ytterligare stöder den övergripande kolineariteten med Brachypodium i denna genomiska region. Dessutom matchade en BAC-ändsekvens (HF198106) avseende contig_45219 med hög identitet (99,9 % identitet över 755 bp) till två BAC-sekvenser av contigs_45097, vilket indikerar att dessa två FP-kontiger kan överlappa varandra.

Sammanfattningsvis, vid den genetiska upplösningen som tillhandahålls av 100 F2-växter, kunde vi inte i ett steg erhålla en enda fysisk sekvensställning av överlappande BAC-kloner från MND plats mellan de två närmaste flankerande markörerna. Det återstående gapet kan dock stängas genom att sekvensera MTP för de två ytterligare FP-kontigerna som identifierats baserat på konserverad syntenyinformation till Brachypodium. Dessutom kan en ökning av den genetiska upplösningen avsevärt till flera tusen meioser, vilket ofta krävs i korn, göra det möjligt att lösa rekombinationer mellan markör M4 och MND genen, vilket skulle resultera i landning med flankerande markörer på en enda BAC contig-ställning som tillhandahålls av den fysiska kartan över korn. Sålunda, trots de avancerade genomiska resurserna som nu är tillgängliga för korn, kan en iterativ process som involverar mer än en omgång av MTP-sekvensering och överlappsanalys fortfarande krävas för att erhålla en sammanhängande fysisk karta över ett kandidatlokus.


Hur kan mikrobiell populationsgenomik informera samhällsekologi?

Populationer är grundläggande enheter för ekologi och evolution, men kan vi definiera dem för bakterier och arkéer på ett biologiskt meningsfullt sätt? Här granskar vi varför populationsstrukturen är svår att känna igen i mikrober och hur de senaste framstegen i att mäta samtida genflöde tillåter oss att identifiera tydligt avgränsade populationer bland samlingar av närbesläktade genom. Sådan struktur kan uppstå från preferentiellt genflöde orsakat av samexistens och genetisk likhet, vilket definierar populationer baserat på biologiska mekanismer. Vi visar att sådana genflödesenheter är tillräckligt genetiskt isolerade för att specifika anpassningar ska spridas, vilket gör dem också till ekologiska enheter som är differentiellt anpassade jämfört med sina närmaste släktingar. Vi diskuterar implikationerna av dessa observationer för att mäta bakteriell och arkeal mångfald i miljön. Vi visar att operativa taxonomiska enheter definierade av 16S rRNA-gensekvensering har bedrövligt dålig upplösning för ekologiskt definierade populationer och föreslår monofyletiska kluster av nästan identiska ribosomala proteingener som ett alternativt mått för populationskartläggning i ekologiska gemenskapsstudier som använder metagenomik. Dessa befolkningsbaserade tillvägagångssätt har potential att ge välbehövlig klarhet i tolkningen av den stora mikrobiella mångfalden i mänskliga och miljömässiga mikrobiomer.

Den här artikeln är en del av temanumret 'Konceptuella utmaningar i mikrobiell samhällsekologi'.

1. Introduktion

Ta vilken inledande biologilärobok som helst och du kommer förmodligen att hitta evolution definierad som förändring i populationernas genetiska sammansättning. Eftersom de definieras som lokalt samexisterande representanter för arter, är populationer i praktiken också de mångfaldsenheter som används när vi vill mäta arternas mångfald för att bedöma ekologiska interaktioner samt ekosystemstabilitet och resiliens [1]. För mikrober har dock populationer varit notoriskt svåra att definiera [2], och vi använder godtyckliga mångfaldsenheter för att mäta den genetiska sammansättningen av samhällen [3]. Denna svårighet att definiera populationer har naturligtvis sina rötter i avsaknaden av ett biologiskt meningsfullt artbegrepp för bakterier och arkéer [3–6]. Utan tydligt definierade populationer är många av de mest grundläggande frågorna inom samhällsekologi svåra att besvara. Leder till exempel störningar till förändringar i genotypisk sammansättning inom populationer eller till artomsättning? Att skilja mellan dessa möjligheter är en meningsfull fråga eftersom förändringar i genotyp inom en population kan vara mycket mindre störande för ekologiska nätverk än stora förändringar i artsammansättningen. Faktum är att denna fråga är kärnan i att förstå dynamiken i nyckelmikrobiella samhällen, inklusive den mänskliga mikrobiomen.

Att definiera bakteriella och arkeala populationer, och i förlängningen arter, är därför en viktig strävan för samhällsekologi, men kan vi göra det? Är mikrobiell mångfald organiserad i naturliga enheter som vi kan tillskriva biologiskt meningsfulla egenskaper? Specifikt, organiserar grundläggande evolutionära processer samexisterande genotyper i enheter genom vilka anpassningar specifikt kan spridas, vilket ger upphov till ekologiska enheter med tydligt olika dynamik? Om vi ​​kan definiera mikrobiella populationer på ett sådant sätt, då kan vi kanske tillämpa den rika evolutionära och ekologiska teorin som utvecklats för djur och växtpopulationer [7,8] om inte, då kan vi behöva fundamentalt olika teorier och tillvägagångssätt [2] .

Här utforskar vi frågan om bakterier är organiserade i genetiskt tydligt avgränsade, ekologiskt differentierade populationer. Vi hävdar att även om bakteriell och arkeal rekombination, både homolog och icke-homolog, är enkelriktad och promiskuös, har miljöstruktur och selektion potential att strukturera genflödet tillräckligt för att ekologiskt differentierade enheter ska uppstå. Vi diskuterar därefter varför det har förblivit så svårt att känna igen sådana enheter och visar att genom att endast uppskatta genflödet från mycket nyligen, återvinns kongruenta enheter av genflöde och ekologi.Även om många fler exempel fortfarande behövs, kan dessa enheter vara den bakteriella och arkeala motsvarigheten till populationer och deras identifiering kan i slutändan bidra till att lösa problemet med mikrobiella arter. Vi avslutar med att dra implikationer för att mäta biologiskt meningsfull mångfald i miljön.

2. Bör vi förvänta oss att hitta tydligt avgränsade populationer bland bakterier och arkéer?

Även om genflödet är potentiellt promiskuöst i den meningen att vilken mikrob som helst kan i princip dela gener med vilken annan som helst [9,10], behöver den bara vara tillräckligt strukturerad för att tillåta preferentiella anpassningar att spridas för att populationer som lokala ekologiska enheter ska kunna spridas dyka upp [11,12]. Tänk på att populationer, som upptar ett definierat habitat, består av individer som är under liknande selektivt tryck eftersom de samexisterar och utför liknande funktioner (figur 1). Sådana livsmiljöer kan vara små organiska partiklar i jordar eller vattenmiljöer, eller mer expansiva vattenförekomster med definierade fysikaliska och kemiska egenskaper [13–15]. Nyckeln är dock att livsmiljöer nästan alltid är fläckiga och tillfälliga, och att de tillåter en delmängd av populationer inom samhället att öka i överflöd genom preferentiell tillväxt [13,16–18]. Som ett resultat har aktiva populationer en högre sannolikhet att dela genetiskt material eftersom homologa rekombinationshastigheter minskar exponentiellt med sekvensdivergens [19,20] och preferentiella mikrohabitatföreningar säkerställer högre möteshastigheter (figur 1).

Figur 1. Storleken på genflödet mellan mikrobiella populationer formas främst av den genetiska likheten och ekologiska överlappningen av de individuella stammar som utgör dessa populationer. Medan effektiviteten av homolog rekombination minskar exponentiellt med sekvensdivergens, ökar sannolikheten för överföring med större fysisk kontakt mellan stammar som upptar liknande fysiska nischer. (Onlineversion i färg.)

Detta ökade möte och rekombination av aktivt växande genotyper har viktiga konsekvenser för att skapa och upprätthålla ekologisk sammanhållning [12]. Om en anpassning uppstår inom en population kommer den att spridas lättare inom populationen på grund av kombinationen av preferentiellt genflöde och konditionsökning hos de genotyper som bär anpassningen [11]. Med andra ord, beroende på balansen mellan selektionsstyrkan och rekombinationshastigheten, kan anpassningen spridas genom populationen genom ett selektivt svep [12,21]. Om anpassningen är användbar för andra samexisterande populationer, är dess fitnessfördel för en viss population kortlivad eftersom horisontell genöverföring förmodligen gör den tillgänglig för andra populationer [22]. Scenariot kan dock vara helt annorlunda om avvägningar är förknippade med transporten av anpassningen, vilket innebär att det kanske inte fungerar lika bra i en annan genomisk eller ekologisk bakgrund [12,23,24]. Om så är fallet kan en anpassning förbli populations- eller artspecifik mycket längre och framtvinga ekologisk differentiering. Avvägningar kan också initiera artbildningsprocessen om genotyper som bär anpassningen passar bättre i ett nytt habitat men mindre i den förfäders habitat [12,23]. Denna effekt kan inducera fysisk separation och därmed en genflödesbarriär mellan de begynnande populationerna [12,25].

De avvägningar som diskuterats ovan är ofta svåra att identifiera eftersom de kräver undersökning av mycket nyligen angivna populationer. Bland mer divergerande arter har för många genetiska förändringar vanligtvis ackumulerats och gått förlorade för att identifiera egenskapen som är associerad med avvägningen. Ett tydligt exempel kommer från nyligen specificerade bakteriepopulationer i havet [26]. En jämförande genomisk metod identifierade två populationer av Vibrio cyclitrophicus som var differentiellt fördelade i havsprover, den ena var associerad med organiska partiklar och den andra förekom fritt levande. Båda populationerna innehöll genomregioner som differentierade dem, inklusive regioner som innehöll mycket reducerad nukleotiddiversitet, vilket indikerar ett nyligen svep av en specifik allel, såväl som regioner som visade differentiell gennärvaro som förväntat från senaste populationsspecifika tillägg eller förluster. Några av dessa differentierande alleler och gener var tydligt associerade med biofilmbildning och vidhäftning, vilket ledde till hypotesen att förmågan att associera med partiklar antingen förlorades eller vunnits i en av populationerna [26].

Denna hypotes om differentiell anpassning baserad på observerade genetiska skillnader bekräftades därefter av beteendeobservationer av representanter för de två populationerna som antydde en konkurrens-spridning avvägning [27]. Mikrofluidik användes för att skapa ett ekologiskt landskap som liknar förhållanden i havet där små partiklar representerar en livsmiljö till vilken bakterier kan fästa och bryta ned det fasta organiska materialet [13,16]. Denna nedbrytningsprocess skapar i sig en tillfällig livsmiljö av fläckar av löst organiskt material eftersom de fästa bakterierna extracellulärt bryter ned organiska polymerer snabbare än de kan importera nedbrytningsprodukterna till cellen [16]. Ett moln av mono- eller oligomerer bildas runt partikeln genom diffusion, och detta material kan konsumeras av rörliga bakterier [28]. När sådana förhållanden simulerades i det mikrofluidiska systemet, verkade de två populationerna differentiellt anpassade till de fasta respektive lösta resurserna. Medan den ena svarade genom att fästa sig vid partiklarna och växa i biofilmer, kunde den andra effektivt spridas bland partiklar, snabbt upptäcka dem och simma mot nya partiklar [27]. Detta tyder på att den sistnämnda populationen verkligen är bättre anpassad till utnyttjandet av tillfälliga, lösliga näringsfläckar, medan den första förbinder sig till nedbrytningen av det fasta organiska materialet. Även om det var svårt att bevisa, drogs det slutsatsen från den genomiska jämförelsen att dessa beteendeskillnader var involverade i artbildningsprocessen eftersom de differentiella anpassningarna representerar en ekologisk avvägning som inte lätt kan samexistera i genom.

Även om exemplet ovan visar kraften hos populationsgenomik i kombination med finskalig miljöprovtagning, var upptäckten av sådana nyligen angivna populationer ändå slumpmässigt. Det hjälptes av det faktum att en proteinkodande gen som användes som markör för att differentiera isolat initialt var kopplad till en svepregion och således tydligt differentierade dessa två populationer [26]. I de flesta fall går det inte att sluta sig till befolkningsstrukturen a priori och istället kräver en sådan slutsats ett tillvägagångssätt där ett visst mått av mångfald kartläggs på miljöprover. Vi skisserar sedan orsaker till denna svårighet att känna igen populations- eller artgränser bland bakterier och arkéer baserat på enbart genetisk information.

3. Varför är det så svårt att definiera populationer?

I en nyligen publicerad opinionsartikel beskrev Rocha [2] utmaningar i bakteriell (och arkeal) populationsgenetik i ljuset av den neutrala evolutionsteorin. Ett av de viktigaste problemen är att det har varit nästan omöjligt att definiera syftet med studien på grund av dess otydliga karaktär. Liknande argument har framförts tidigare för artgränser [29]. Sådan ludighet observeras i fylogenetiska träd med flera loci över genomet eftersom de resulterar i olika topologier. Det vill säga, även om klustring observeras, är det inkonsekvent när olika gener beaktas, vilket återspeglar deras divergerande evolutionära historia [29,30]. En färsk tidning hävdade till och med att rekombination har varit så promiskuös bland Escherichia coli isolerar att det inte finns något majoritetsträd, även om, paradoxalt nog, ett liknande träd alltid produceras vid medelvärde över olika större genomregioner [31]. Detta är potentiellt problematiskt när, som i många rekombinationsuppskattningsmetoder, individuella gener jämförs med ett sådant konsensusträd som är tänkt att återspegla befolkningens klonala historia (eller klonala ram). Sammantaget tyder dessa observationer på att fylogenetiska metoder kan stöta på problem med att avgränsa populationer och arter.

Problemet med fylogenetiska metoder kan vara att de integreras över för långa evolutionära tidsramar för att vara användbara för populationsdifferentiering. I synnerhet bland nyligen specificerade populationer stöder endast en mycket liten del av genomet en distinktion mellan dem [26]. Detta illustreras väl i analysen av två nyligen angivna V. cyclitrophicus populationer, där i stort sett varje genomisk region de delade hade sin egen unika evolutionära historia och båda populationerna verkade helt blandade [26]. Detta är en uppenbar paradox: hur kan det finnas rekombination över populationsgränser medan populationsspecifika svep observeras? Svaret ligger i tidsskalorna över vilka fylogenetiska jämförelser integreras. När en metod utarbetades för att analysera endast de senaste rekombinationshändelserna var dessa vanligare inom populationer. Detta tyder på att medan de två populationerna delade en gemensam historia av rekombination, var de senaste rekombinationshändelserna efter populationsdivergensen populationsspecifika [26].

Även många metoder utformade för att mäta rekombination kan lida av ett liknande problem med att integrera över evolutionära tidsramar som är för långa för att fånga artbildningshändelser. Vi genomförde nyligen ett enkelt experiment där vi simulerade en utbrott av rekombination bland en grupp av annars klonalt utvecklande genom och observerade hur signalen för rekombination avklingade när mutationer ackumulerades [32]. När rekombination analyserades med två olika metoder som förlitar sig på identifiering av homoplasier, fanns det fortfarande en betydande signal långt efter att genflödet avslutades. Detta beror på att homoplasier endast långsamt raderas av den slumpmässiga mutationsprocessen, så att metoder som förlitar sig på deras mätning integreras under långa tidsperioder och inte bara fångar den samtida rekombinationsprocessen. Sådan integration över långa tidsramar blir problematisk när närbesläktade populationer eller till och med arter jämförs och antyder att metoder som kan analysera mer samtida genflöde behövs för att korrekt återställa populations- eller artgränser [32].

4. Kan vi uppskatta genflödet i sammanhanget av samtida befolkningsstruktur?

Om nuvarande metoder inte kan återställa arter eller populationsgränser, finns det ett alternativ som korrekt kan identifiera sådana gränser? Vi har nyligen föreslagit en sådan metod som bygger på att mäta den homogeniserande kraften av rekombination mellan två genom och som kan identifiera mycket nyare genöverföring än andra metoder [32]. Denna metod, som kallas populationer som kluster av genöverföring (PopCOGenT), skiljer sig från andra genom att den uppskattar nyligen genöverföring via delade identiska genomregioner (figur 2). Eftersom sådana identiska spår mellan två närbesläktade genom kan härröra via vertikalt arv eller horisontell genöverföring, skiljer PopCOGenT de två med en enkel modell av vertikalt (klonalt) arv. Om två genom divergerar klonalt genom mutationsackumulering utan rekombination, kommer de att ha en karakteristisk längd och frekvensfördelning av identiska regioner som kan uppskattas av en Poisson-modell av enkelnukleotidpolymorfismer [32]. Betydande anrikning i identiska regioner över denna förväntan kan sedan tjäna som en uppskattning av genöverföring (figur 2). Genöverföringssignalen avtar i en storleksordning inom den tid det tar för genom att divergera med 0,1%, och PopCOGenT kan därför ge ett mycket mer modernt mått på genöverföring än andra metoder [32].

Figur 2. Metoden 'populationer som kluster av genöverföring' (PopCOGenT) uppskattar mängden nyligen horisontell genöverföring genom att mäta fördelningen av längder av identiska sekvenser som delas av två olika genom. Genom att jämföra denna distribution med en nollmodell av klonal evolution (i), bestämmer PopCOGenT en "överföringsbias" på grund av horisontell genöverföring. Efter upphörandet av horisontell överföring mellan genom, avtar denna överföringsbias snabbt på grund av ackumulering av mutationer. (Onlineversion i färg.)

Viktigt är att måttet på genöverföring som tillhandahålls av PopCOGenT kan användas för att konstruera ett nätverk för att undersöka hur rekombination strukturerar genetisk mångfald (figur 3). I exemplet som visas i figur 3 visar de individuella genomen olika mängder genflöde mellan dem. Vissa isolat bildar ett tydligt isolerat kluster, medan andra förblir sammankopplade av ett betydande genflöde, men är ytterligare strukturerade till svagare sammankopplade subkluster. Som beskrivs i detalj nedan kan sådana subkluster observeras genom att tillämpa en enkel klustringsalgoritm på det råa genflödesnätverket. Dessutom, eftersom PopCOGenT arbetar med parvisa anpassningar, kan den jämföra alla delade regioner, oavsett om dessa delas av alla isolat över en population. På det sättet kan nyligen delat genetiskt material i både kärngenomet och det flexibla genomet tas med i beräkningen, det vill säga i genkomplementet som delas av alla respektive delmängder av isolat i en population.

Figur 3. PopCOGenT identifierar populationer genom parvisa helgenomanpassningar av miljömässigt härledda isolat- eller encelliga genom. Det är ofta oklart hur man grupperar stammar till biologiskt meningsfulla populationer från fylogenetiska träd gjorda av flera genomanpassningar eller sammanlänkade markörgener (vänster). Vidare kan mångfalden i dessa fylogenetiska träd bara någonsin skildra den evolutionära historien för kärngenomiska regioner. Genom att utföra parvisa anpassningar uppskattar PopCOGenT genöverföring över alla regioner som delas av två genom och identifierar populationsstruktur utan att förlita sig på stela identitetsavgränsningar (mitten). Medan vissa populationer är helt bortkopplade från andra grupper genom genflöde, förblir andra sammankopplade, och den underliggande populationsstrukturen avslöjas genom klustring som identifierar subkluster av omfattande anslutna stammar (höger). De isolerade klustren av genom kan betraktas som artliknande på grund av de egenskaper de delar med det biologiska artkonceptets definitionskrav för genetisk isolering. (Onlineversion i färg.)

När den applicerades på flera bakteriella och arkeala modellsystem för vilka befolkningsstrukturen har uppskattats (med användning av populationsgenomik kombinerat med ekologiska och fysiologiska data), kunde PopCOGenT rekapitulera de ursprungliga förutsägelserna [32]. Dessa modellsystem representerar ett kritiskt test, eftersom var och en har visat sig omfatta närbesläktade systerpopulationer som kännetecknas av kohesiva egenskaper, inklusive differentiell dynamik i miljöprover. När PopCOGenT användes för att konstruera ett genflödesnätverk bland genom från dessa modellsystem, strukturerades det råa nätverket i genflödeskluster som var mycket kongruenta med de tidigare identifierade genetiska och ekologiska enheterna.

Dessa initiala kluster i det råa genflödesnätverket hade ingen koppling till andra sådana kluster, vilket indikerar att det senaste genflödet mellan många ekologiska populationer i huvudsak inte går att upptäcka [32]. När en enkel klustringsalgoritm användes avslöjades dock den ytterligare strukturen i vissa fall, dvs subkluster av anrikat genflöde inom som upprätthåller ett visst genflöde mellan dem. Dessa subkluster rekapitulerade också två modeller av nyligen divergerade populationer i V. cyclitrophicus och Sulfulobus icelandicus [26,33], vilket indikerar att PopCOGenT korrekt kan identifiera begynnande populationer åtskilda av svagare genflödesdiskontinuiteter [32]. En av datamängderna bestod också i första hand av genom amplifierade från enstaka celler från havets cyanobakterie Prochlorococcus. Sådana encelliga genom är vanligtvis svåra att jämföra med traditionella metoder eftersom de är ofullständiga i slumpmässiga områden. PopCOGenT kan dock hantera ofullständig information eftersom den förlitar sig på parvisa jämförelser så länge som tillräcklig överlappning mellan par finns tillgänglig. Vad som utgör tillräcklig information är fortfarande dåligt utforskat och datauppsättningar kan också lätt förväxlas av kontaminerande DNA som kan bedömas som genöverföringskopplingar mellan orelaterade genom. Icke desto mindre representerar potentialen att utföra populationsgenomik med encellsgenom och därmed kringgå odling en potentiell fördel med PopCOGenT. Sammantaget antyder observationen av kluster och subkluster bland närbesläktade genom att uppskattningar av enbart genflöde kan användas för att anta genetiska och ekologiska enheter. Men hur kan vi vara säkra på att de korrekta gränserna mellan dessa enheter har identifierats?

5. Hur kan vi testa om den förutspådda befolkningsstrukturen är biologiskt meningsfull?

För att svara på denna fråga återgår vi till argumentet att för att genetiska och ekologiska enheter ska vara kongruenta måste anpassningar kunna spridas på ett art- eller populationsspecifikt sätt. Ett kritiskt test är därför om det finns egenskaper som skiljer de närmast besläktade systerpopulationerna åt. Båda exemplen på artbildningsmodellerna av V. cyclitrophicus och S. islandicus tyder på att sådana egenskaper kan identifieras [26,33]. Vi utökade därför logiken i genflödesanalysen till identifiering av alleler och gener som har svepts på ett populationsspecifikt sätt [32] (figur 4). Vi analyserade om Ruminococcus gnavus genom isolerade från friska individer såväl som patienter med Crohns sjukdom och ulcerös kolit [34]. Tillämpningen av PoCOGenT visade ett anslutet nätverk med tre subkluster, varav två provades tillräckligt för att testa för anpassningar i form av populationsspecifika alleler eller gener [32]. För att dessa anpassningar nyligen ska ha uppstått genom populationsspecifika svep, bör de visa mycket minskad mångfald i allelerna eller generna som kodar för dem jämfört med den genomsnittliga nukleotiddiversiteten över populationernas genom.

Figur 4. En huvudfunktion hos populationer och arter som identifieras genom genflöde är att de är de grundläggande enheterna genom vilka adaptiva egenskaper strålar ut och sprids. När alleler förvärvas av en population (antingen genom de novo-mutation eller horisontell förvärvning från en avlägsen släkting), kan dessa alleler överföras till andra medlemmar av samma population genom homolog rekombination. Vidare, om dessa egenskaper ger en nischspecifik fördel som avsevärt ökar konditionen hos deras värd, kommer de att stiga till fixering i den populationen på grund av urval. Följaktligen är ett kännetecken för dessa regioner när man jämför genomer lokalt minskad nukleotiddiversitet vid det valda lokuset. Observationen av dessa regioner som nyligen har genomgått selektiva svep är en användbar bekräftelse på att den förutspådda befolkningsstrukturen är biologiskt meningsfull. Faktum är att randomiserade befolkningsgrupperingar konsekvent förhindrar identifieringen av svepande regioner.

När en pipeline utvecklades för att identifiera genomregioner med signifikant minskad nukleotiddiversitet jämfört med populationsgenomsnittet (figur 4), identifierades flera alleler i kärngenomet och gener i det flexibla genomet som skilde åt båda populationerna [32]. Dessa regioner var alla olänkade och fördelade över genomet, vilket indikerar att de uppstod oberoende av varandra. Många av dessa alleler och gener kunde inte annoteras, men flera kodade ytproteiner, vilket tyder på att de är involverade i någon form av kommunikation med omgivningen. Dessa resultat tyder därför på att genflödet är tillräckligt partiskt på ett populationsspecifikt sätt för att möjliggöra anpassningar att spridas genom rekombination och fungerar som en stark bekräftelse på att korrekta ekologiska enheter har identifierats.

6. Hur kan populationsstrukturen utvecklas under horisontell genöverföring?

Hur kan observationen av tydligt avgränsade kluster i nutida genflöde förenas med observationer av horisontell genöverföring som i vissa fall har kallats "skenande" [35]? Det finns rikliga bevis för att det finns ett kontinuerligt upptag och inkorporering av divergent genetiskt material i bakterie- och arkeala genom [25]. Det vill säga, varje cell kan när som helst hysa gener som nyligen har förvärvats från vilket antal andra mikrober som helst. Även om sådan inkorporering av divergerande gener kommer att påverka fylogenetisk klustring av isolat, kommer det inte att störa genflödesnätverket tillräckligt för att maskera populationsstrukturen om genflödet inom populationer är mycket högre än mellan, som vi föreslår här. Dessutom, om genflödet är ganska slumpmässigt, kommer det att länka stammar mellan populationer på ett mer eller mindre slumpartat sätt, så att kopplingarna är ganska ostrukturerade. Faktum är att många av de förvärvade generna kan gå förlorade ganska snabbt om de är, vilket verkar troligt, åtminstone något skadliga för mottagargenomet [11]. Därför är populationer och möjligen arter verkligen otydliga enheter på grund av horisontell genöverföring, men sådan luddighet utesluter inte deras definition som ekologiska enheter om genflödet är tillräckligt partiskt mot rekombination inom populationen för att möjliggöra anpassningar att svepa på ett specifikt sätt.

En konstant provtagning av genetiskt material från divergerande källor kan i själva verket utgöra råvaran för anpassning [11]. Även om det är allmänt accepterat att evolutionär innovation kan uppstå genom horisontell tillägg av gener i genomet, var det överraskande i vår senaste analys av de nyligen differentierade Ruminococcus populationer som diskuterats ovan. Den stora majoriteten av adaptiva alleler vi kunde identifiera var horisontellt förvärvade från divergerande källor [32]. På liknande sätt baserades en adaptiv strålning som differentierade närbesläktade populationer av havsbakterier för olika fysiska former av samma polysackarid på förvärvs- och förlustdynamik hos gener [36]. Även flera kopior av samma polysackaridlyaser har sitt ursprung genom överföring snarare än duplicering, inklusive vissa enzymer som fanns i så många som sju kopior per genom. Dessa observationer överensstämmer med tidigare analys av olika genom som också visade att duplicering av gener inom samma genom är sällsynt i mikrober [37]. Detta är en grundläggande skillnad mot eukaryoter, där duplikationer är vanliga och evolutionär innovation uppstår genom mutation i genomet [38].

7. Vilka är potentiella förbehåll för förutsägelser om befolkningsstruktur?

Med tanke på att resultaten hittills visar att det finns förvånansvärt mycket isolerade genflödeskluster, finns det potentiella scenarier där den horisontella överföringen kan maskera eller radera populationsstruktur? Denna aspekt är fortfarande dåligt utforskad, men flera scenarier kan åtminstone föreställas. Rekombinationshastigheter bland mikrober är mycket varierande [32,39], och om mycket låg kan inmatningen av en större uppsättning gener från en annan population skapa en stark koppling till en undergrupp av genom i den aktuella populationen, vilket förvirrar populationsstrukturanalys . Det mest sannolika scenariot är en population med låga rekombinationshastigheter som får ett stort mobilt genetiskt element (MGE) som är under positivt urval i både givar- och mottagarpopulationen och därmed kopplar ihop en stor del av genomen. Ett sådant fall kan uppstå om till exempel en antibiotikaresistensplasmid rör sig genom en mikrobiom under starkt antibiotikaselektion. Det är därför tillrådligt att testa populationsstruktur med och utan MGE, eller att inkludera närbesläktade genom från prover som inte har blivit föremål för antibiotikabehandling. Dessutom är det möjligt att två besläktade populationer plötsligt upptar liknande nischer på grund av vissa miljöförändringar. Sådan förändring i samtidig förekomst kan möjliggöra ökat genflöde, särskilt om det är under selektion, och leda till despeciering som har postulerats för vissa Campylobacter arter i djurmikrobiomer [40]. Även om dessa typer av situationer kan leda till befolkningsstruktur som är mindre tydlig än de som identifierats i modellsystemen vi analyserade, är genflödesmönstren ändå biologiskt relevanta och kan leda till intressanta hypoteser om miljöselektionen.

Vi betonar att alla förutsägelser om befolkningsstruktur representerar en hypotes i sig och måste analyseras noggrant eftersom den kan påverkas av provtagning och andra faktorer. Men vi tror att om populationer bär signaturer av specifika anpassningar, såsom genspecifika svep (figur 4), tjänar dessa som några av de starkaste möjliga bevisen för att den förutspådda populationen representerar en ekologisk enhet och därmed den mest relevanta enheten för samhällsekologi .

8. Vilka är nyckelegenskaperna hos populationer som definieras av genflödet?

Ett slående särdrag hos de populationer som identifieras här är att de innehåller relativt låg nukleotiddiversitet i deras kärngenom, det vill säga i gener som delas av alla. Genomerna av både bakterier och arkéer som analyserats hittills är vanligtvis mer än 98% lika i nukleotidsekvensen inom populationer, vilket överensstämmer med data som erhållits från en annan metod för att förutsäga populationsstruktur [41]. En sådan hög likhet skulle också säkerställa att homolog rekombination inom populationer förblir effektiv, eftersom dess hastighet avtar exponentiellt med sekvensdivergens [19,20]. Det bör också noteras att dessa låga värden är ganska förenliga med nukleotiddiversitet inom djur- och växtarter. Till exempel skiljer sig mänskliga genom med högst 0,2 % av nukleotidställena jämfört med det mänskliga referensgenomet [42].

Om populationerna som definieras av genflöde tas som lokala representanter för arter, är de betydligt snävare definierade än de som är resultatet av jämförelsen av genomsnittlig nukleotididentitet (ANI), som har blivit grunden för en populär artdefinition [43,44] . När ANI jämförs över olika grupper av genom, är det vanligtvis ett minimum observerat på cirka 95% ANI, den förmodade artgränsen [44]. Denna gräns överensstämmer dock troligen inte med populations- eller artgränser av skäl som liknar de som uttalats ovan angående populationsgränser uppskattade med vissa rekombinationsmetoder. När genflödet minskar på grund av artbildning, kommer den genetiska likheten mellan de begynnande arterna att förfalla eftersom rekombination inte längre fungerar som en homogeniserande kraft [25]. Ändå är detta förfall en långsam process och för signalen om genetisk likhet att nå ett minimum kommer det att ta lång tid [32]. Därför kan populations- eller artgränsen ligga inom 95 % likhetsvärde, och, viktigare, nyligen angivna populationer kanske inte går att känna igen eftersom deras genom inte har divergerat tillräckligt, vilket maskerar ekologiska eller sjukdomsassociationer som nyligen demonstrerats [26,32,45] . Därför, även om de vädjar för sin enkelhet, är det tveksamt om ANI minima kan definiera biologiskt meningsfulla artgränser.

En ytterligare viktig egenskap hos populationer som definieras av genflöde är att pan-genomet förblir av betydande storlek [46]. Det vill säga, trots att genom är mycket nära besläktade över de delade generna, visar de ett stort antal gener som inte delas. Många av dessa gener förblir okommenterade och deras roll för populationsbiologin är därför oklar. Det finns dock ett ökande antal exempel som visar att det flexibla genomet åtminstone delvis kan vara under negativ frekvensberoende selektion, en form av selektion där konditionen hos en genotyp minskar när den blir vanligare i befolkningen [ 46]. Denna effekt kan vara särskilt stark för organismsamverkan som produktion av allmännytta och predation. Till exempel har produktionen av sideroforer av vissa genotyper visat sig åtföljas av utvecklingen av fuskare som saknar produktionsgener men behåller upptagningsgener [47,48]. Dessutom är virala receptorer och försvarsgener ofta förpassade till det flexibla genomet, vilket indikerar att de inte kan stiga till hög överflöd inom populationer som skydd mot specifika virus som decimerar befolkningen [46,49,50]. Slutligen finns det också ökande bevis för att sådana flexibla genomregioner företrädesvis kan delas inom populationer genom homolog rekombination av de flankerande regionerna så att i stället för att upprepade gånger förvärvas de novo, är många flexibla regioner en del av en populations biologi [46].

9. Vilka är konsekvenserna för mätning av mångfald i miljön?

Tillvägagångssättet för att hypotesera befolkningsstruktur baserat på genflöde följt av testning av hypotesen genom identifiering av populationsspecifika svep möjliggör en omvänd ekologisk strategi som förutsäger ekologiska enheter från enbart genomisk information [32,51]. På detta sätt kan tillvägagångssättet tillhandahålla en opartisk ram för att identifiera viktiga variabler som driver diversifiering i mikrobiella populationer genom att lyfta fram alleler och gener under starkt urval. Detta tillvägagångssätt ger således en unik lins för att avgränsa mikrobiellt nischutrymme som är agnostiskt för att noggrant kunna mäta var stammar faller längs miljögradienter. Naturligtvis är direkta insikter om ekologisk differentiering baserad på alla genomiska tillvägagångssätt mycket beroende av noggrannheten i genkommentarer, som för närvarande i bästa fall är ojämn. Men ett omvänd ekologiskt tillvägagångssätt kan också hjälpa till att formulera hypoteser för relevanta gener som behöver karakteriseras ytterligare av andra tillvägagångssätt som molekylär genetik eller strukturanalys och kan därmed bidra till att bygga ett mer strukturerat tillvägagångssätt för att lösa det allestädes närvarande annoteringsproblemet.

Loki under urval är särskilt användbara för att bedöma förekomsten av populationer i miljöprover eftersom deras mångfald inom populationen är exceptionellt låg, medan mångfalden mellan populationer är mycket högre eftersom bevis hittills indikerar att de flesta loci uppstod genom horisontell genöverföring från divergerande källor [ 32]. Dessa egenskaper innebär att sveplokus kan detekteras med mycket hög noggrannhet i miljöprover, och deras förekomst i genomet av rekombinogena organismer tillför statistisk kraft vid bedömning av överflöd av populationer i komplexa samhällen. Följaktligen ger hagelgevärsmetagenomer av DNA extraherat från mikrobiella samhällen ett bekvämt sätt att kvantitativt bedöma förekomsten av flera loci i flera prover. Detta tillvägagångssätt är dock av begränsad användning om målpopulationer är sällsynta i sin miljö. Sweep loci kan också vara mål för högupplösta analyser som digital polymeraskedjereaktion som gör det möjligt för forskare att snabbt mäta mängden populationer i olika prover om större känslighet krävs. Dessa regioner kan också vara mål för fluorescens på plats hybridiseringssonder för att direkt visualisera hur närbesläktade populationer är olika fördelade i miljön. Vi föreställer oss att detta kommer att möjliggöra mer målinriktad testning av finskaliga miljöföreningar som vida överstiger effektiviteten hos traditionella framåtriktade ekologiska tillvägagångssätt, som ofta bygger på att kartlägga mikrobiella grupper på grova miljövariabler och sedan använda genomik för att hitta potentiella skillnader [12].

Hur jämför populationer definierade av genflöde med den traditionella mätningen av mikrobiell mångfald genom 16S rRNA-gensekvensering som ofta används för att kartlägga mikrobiella populationer på miljöprover? För att svara på denna fråga använder vi ett exempel från vårt eget arbete där vi har avgränsat Vibrionaceae bakterier till samexisterande populationer i havsvatten. Vi hittar typiskt omkring 20 eller så samexisterande populationer som ursprungligen definierades av finskalig miljöprovtagning av isolat, sekvensering av proteinmarkörgener och tillämpning av matematisk modellering för att koppla genetisk mångfald till miljöstruktur [52–55]. Dessa befolkningsförutsägelser har nyligen bekräftats av den mycket enklare genflödesanalysen [32] som möjliggör direkt jämförelse av en av proteinmarkörgenerna (hsp60) med olika 16S rRNA-genfragment som används för att definiera operationella taxonomiska enheter (OTU) för deras potential att differentiera ekologiska enheter i prover.

Denna jämförelse visar oroande låg upplösning av 16S rRNA-generna jämfört med populationer definierade av genflödet (figur 5). Speciellt 16S rRNA-taggar som vanligtvis används i sekvensering med hög genomströmning har i huvudsak noll upplösning för ekologiska populationer. För fullängdsgenen är detta bara något bättre, vilket visar att artbildning vida överträffar upplösningen av 16S rRNA-generna. Detta innebär att genen har mycket begränsad information när det kommer till ekologisk dynamik hos populationer i miljöprover, och en unik sekvens kan maskera många ekologiskt differentierade populationer, en effekt som uppenbarligen blir värre ju bredare OTU definieras i termer av sekvensdivergens.

Figur 5. 16S rRNA-gensekvenskluster kan särskilja 0–7 av 14 ekologiskt distinkta Vibrionaceae populationer beroende på sekvenslängd och klustergräns, medan kluster i hsp60 markörgenen kan skilja alla eller nästan alla. Fylogeni är baserad på 52 sammanlänkade ribosomala proteiner. En skuggad ruta indikerar att ett taxon kan särskiljas unikt med den givna genlängden och klustringsmetoden, medan en vit ruta indikerar att en taxon är sammanslagen med minst ett annat taxon, i minst ett genkluster. Habitatfördelningsbeskrivningar härleds från en kvantitativ analys av populationernas fördelning över tre olika urvalsuppsättningar av Preheim et al. [54]. Taxa utan habitatbeskrivningar exkluderades från den analysen på grund av begränsad provtagning. (Onlineversion i färg.)

Med tanke på att förutsägelsen av populationsstruktur genom genflöde kräver isolat eller encelliga genom, finns det en proxy som kan utvecklas för art- och populationsidentifiering i metagenom? Potentiellt ja. En intressant egenskap hos de populationer vi har identifierat är att de är ganska väl approximerade av nästan identiska ribosomala proteinsekvenser [32,45]. Även för dessa kan viss struktur maskeras på grund av snabb artbildning, men dessa gener kan ändå tjäna som en mycket mer exakt proxy för populationsstruktur. Huruvida denna observation gäller mer allmänt över många taxa kommer att behöva utforskas i större datauppsättningar [56], men viktigare, identiska ribosomala proteiner kan extraheras från metagenomiska datauppsättningar och deras dynamik därmed lätt analyseras [57]. Vi rekommenderar därför att rikta in sig på ribosomala proteiner när arter och populationsdynamik är av intresse i metagenomiska prover.

10. Avslutande kommentarer

Identifieringen av populationer som genflödeskluster som också är ekologiska enheter har stora konsekvenser för mikrobiologin, som länge har lidit av den otydliga definitionen av populationer [2]. Vi föreslår att nya genflöden mätt från samlingar av närbesläktade genom tydligt kan avgränsa populationsgränser även i relativt tidiga stadier av differentiering. Dessa populationer kännetecknas av alleler och gener som nyligen har svept till fixering, vilket indikerar att positivt urval kan sprida anpassningar på ett specifikt och exklusivt sätt. Identifieringen av sådana genspecifika svep ger både förtroende för populationsgränserna och skapar hypoteser om nyare anpassningar som skiljer populationer från varandra. Därför kan dessa populationer betraktas som adaptivt optimerade enheter av bakterier och arkéer som motsvarar hur populationer ses i makroekologi och evolution. Sådana populationer har då betydelse när vi vill studera samhällsekologi, eftersom de möjliggör skarpare identifiering av samband med biotiska och abiotiska faktorer.

Slutligen, med tanke på att många av de populationer som definieras här uppvisar en mycket hög grad av genetisk isolering, är det frestande att åberopa det biologiska artbegreppet, som hävdar att arter är reproduktivt isolerade grupper av organismer [58]. Vi betonar dock att analyserna för bakterier och arkéer som presenteras här i första hand betraktade organismer som antingen samexisterar eller lever på separata platser förbundna med hög migration. Som vi beskrev här kan genetisk isolering av sådana populationer framtvingas genom selektion. Ändå är ett kännetecken för många arter att de består av geografiskt åtskilda populationer sammankopplade genom olika grader av genflöde. Hur en sådan struktur påverkar avgränsningen av kluster är fortfarande en öppen fråga, men detta kommer att vara viktigt att avgöra i jakten på ett biologiskt meningsfullt artbegrepp för bakterier och arkéer.


Slutsatser

Sammanfattningsvis belyser detta arbete de utmaningar som vi står inför vid diagnosen av oförklarad SCD. Vi har använt BrS som ett paradigm för oförklarlig plötslig död i det strukturellt normala hjärtat. Vi visar att identifieringen av en genetisk defekt hos den drabbade inte är likvärdig med att ge en tydlig diagnos. De identifierade genetiska defekterna har gett en potentiell diagnos av BrS, LQTS, CPVT och ARVC. Massivt parallell sekvensering bekräftar att det inte alltid är möjligt att bestämma fenotypen från genetiska data. Inkluderandet av funktionsanalyser kan vara avgörande för att tilldela en säker diagnos, men detta är inte möjligt vid den nuvarande variationsdetekteringen. Därför har införandet av NGS-teknik lett till fler frågor obesvarade jämfört med före NGS-eran. Detta var en förväntad utmaning som alltid uppstår i dessa tillvägagångssätt när stora listor med gener förhörs. Sekvenseringsprocessen av dessa gener ger enorma mängder data som måste lagras, analyseras och tolkas biologiskt och kliniskt. Genetisk diagnostik med hjälp av NGS är fortfarande en utmaning eftersom dess tillämpning på klinisk diagnos kräver först en internationell ansträngning för bättre förståelse av betydelsen av de sällsynta genetiska variationer som upptäcks.Ett av huvudmålen med detta arbete är att utvärdera tillämpbarheten av NGS för klinisk (och rättsmedicinsk) diagnos. Efter analysen av våra resultat verkar detta mål vara svårt att bedöma och endast möjligt ur ett bekant perspektiv. Men även med tillgången på släktingar för att utöka segregationsstudien är den genetiska diagnosen fortfarande svår att uppskatta. Detektering av nya, förmodade sjukdomsframkallande, sällsynta genetiska varianter i flera gener som inte tidigare var associerade med BrS är en logisk konsekvens av studien. Sambandet mellan dessa gener och sjukdomen måste utvärderas ytterligare med hjälp av funktionsstudier och replikeras i olika kohorter innan de anses vara genetiskt avgörande för klinisk diagnos. Flera skäl talar för att de gener som beskrivs ovan bör betraktas som kandidatgener för forskningsändamål för bättre förståelse av de bakomliggande genetiska mekanismerna. Dessa skäl inkluderar rollen för proteinerna som kodas av dessa gener, den låga frekvensen eller deras frånvaro av genetiska variationer i allmänna populationer, deras potentiella patogenicitet utvärderad in silico och när det är möjligt med segregationsanalysen utförd. Dessa fakta tyder på en patogen roll för den genetiska variationen som upptäckts. De betraktas dock som VUS efter att ha tillämpat algoritmen, främst på grund av bristen på funktionella studier och genotyp-fenotypanalys i olika bekanta kohorter. Det är vanligt att sällsynta varianter finns kvar som VUS. Denna observation överensstämmer med egenskapen hos patologier med observerad ofullständig penetrans och variabel uttrycksförmåga. För att fastställa den patogena rollen av de upptäckta variationerna krävs genotyp-fenotypkorrelationer i andra bekanta kohorter som en del av internationella ansträngningar för att ytterligare öka förståelsen för det mutationsspektrum som ligger bakom BrS. I denna riktning hade GWAS-analys (ya existen) från internationella konsortier inklusive flera BrS-kohorter publicerats och utvecklas också nuförtiden. Dessa resultat skulle leda till förtydligande och öppna nya forskningsperspektiv som ska utvärderas,

Den tekniska utvecklingen har gått snabbare än vår förmåga att tillämpa den på den kliniska arenan. Den genetiska arkitekturen i termer av involverade gener, sällsynta och vanliga genetiska varianter och modifierande faktorer skapar ett komplext beslutsnätverk som bara kan redas ut genom noggrann klinisk och genetisk tolkning i familjesammanhang. Detta förstärker behovet av noggrann och noggrann familjeutredning, men också vikten av att data hanteras av experter på området, för att förstå värdet men också begränsningarna med dessa NGS-tester.


Simulerar evolution för att förstå en dold genetisk switch

Genom att använda datorsimuleringar byggda på rimliga antaganden och utförda under noggrann kontroll, kan beräkningsbioforskare efterlikna verkliga biologiska förhållanden. Från och med den ursprungliga grundbefolkningen (urgammal fas), kan de utveckla befolkningen över flera tusen generationer för att utveckla en mellanfas, och sedan utveckla den generationen ytterligare flera tusen generationer för att utveckla en härledd fas. Kredit: © 2021 KAUST Anastasia Serin

Vissa organismer utvecklar en intern strömbrytare som kan förbli dold i generationer tills stressen slår på den.

Datorsimuleringar av celler som utvecklats under tiotusentals generationer avslöjar varför vissa organismer behåller en nedlagd omkopplingsmekanism som slås på under svår stress, vilket förändrar vissa av deras egenskaper. Att bibehålla denna "dolda" switch är ett sätt för organismer att upprätthålla en hög grad av genuttrycksstabilitet under normala förhållanden.

Tomathornmasklarver är gröna i varmare områden, vilket gör kamouflage lättare, men svarta i kallare temperaturer så att de kan absorbera mer solljus. Detta fenomen, som finns i vissa organismer, kallas fenotypisk omkoppling. Normalt dold aktiveras denna omkoppling som svar på farliga genetiska eller miljömässiga förändringar.

Forskare har vanligtvis studerat denna process genom att undersöka de förändringar som genomgått organismer under olika omständigheter under många generationer. För flera år sedan, till exempel, födde ett team upp generationer av tobakshornmasklarver för att observera och framkalla färgförändringar liknande de som inträffade hos deras släktingar med tomathornmask.

"Datorsimuleringar, när de bygger på rimliga antaganden och utförs under noggrann kontroll, är ett mycket kraftfullt verktyg för att efterlikna den verkliga situationen", säger KAUSTs beräkningsbioforskare Xin Gao. "Detta hjälper forskare att observera och förstå principer som annars är mycket svåra, eller omöjliga, att observera genom våtlabbexperiment."

Gao och KAUST-forskaren Hiroyuki Kuwahara designade en datorsimulering av utvecklingen av 1 000 asexuella mikroorganismer. Varje organism fick en genkretsmodell för att reglera uttrycket av ett specifikt protein X.

Simuleringen utvecklade befolkningen över 90 000 generationer. Den ursprungliga grundbefolkningen hade identiska icke-switchande genkretsar och utvecklades över 30 000 generationer, gemensamt kallad den antika befolkningen, under stabila förhållanden. De kommande 30 000 generationerna, kallade mellanbefolkningen, exponerades för fluktuerande miljöer som växlade var 20:e generation. De sista 30 000 generationerna, den härledda befolkningen, exponerades för en stabil miljö.

Individerna i de gamla och härledda populationerna, som utvecklades i stabila miljöer, hade båda genuttrycksnivåer som var optimerade för stabilitet. Men de var annorlunda: den forntida befolkningens stabilitet involverade inte fenotypisk växling, medan den härledda befolkningen gjorde det. Skillnaden, förklarar Kuwahara, härrör från den mellanliggande befolkningen, där byte gynnades för att hantera de fluktuerande förhållandena.

Simuleringarna tyder på att populationer av organismer bibehåller sina växlingsmaskineri under en lång period av miljöstabilitet genom att gradvis utveckla lågtröskelbrytare, som lätt växlar under fluktuerande omständigheter, till högtröskelväxlar när miljön är mer stabil.

Detta är lättare, säger Kuwahara, än att återgå till ett icke-omkopplande tillstånd genom små mutationsförskjutningar. "Istället slutar vi med en typ av "dold" fenotypisk omkoppling som fungerar som en evolutionär kondensator, lagrar genetiska variationer och släpper alternativa fenotyper i händelse av betydande störningar," säger Kuwahara.

Teamet planerar sedan att använda datorsimuleringar för att studera mer komplexa biologiska system samtidigt som de interaktivt samarbetar med forskare som genomför experiment i våtlabb. Deras mål är att utveckla teoretiska ramverk som kan valideras experimentellt.

Referens: “Stabilt underhåll av dolda switchar som en strategi för att öka genuttrycksstabiliteten” av Hiroyuki Kuwahara och Xin Gao, 14 januari 2021, Nature Computational Science.
DOI: 10.1038/s43588-020-00001-y


Metoder

Etikförklaring

Kliniska prover samlades in enligt protokoll som godkänts av de etiska kommittéerna vid College of Medicine i Blantyre, Malawi, och University of Maryland, Baltimore. Skriftligt informerat samtycke lämnades av studiedeltagare eller deras vårdnadshavare.

Studiedesign och prover

Parasitisolat samlades in från deltagare i en longitudinell kohortstudie utförd i Chikhwawa-distriktet i södra Malawi. Detaljer om deltagarna och studieprocedurer har beskrivits tidigare av Buchwald et al [29]. I korthet följdes 120 barn och vuxna som rapporterade till Mfera Health Center med okomplicerad malaria mellan juni 2014 och mars 2015 varje månad under två år. Blodprover samlades in vid varje månadsbesök och alla oplanerade besök där individer rapporterade till vårdcentralen med symtom på malaria. För varje besök diagnostiserades parasitemi med både mikroskopi och PCR. Data som analyserades i denna studie genererades från röda blodkroppspellets insamlade från symtomatiska, okomplicerade malariainfektioner som identifierats under passiv uppföljning. Medianparasitemi för de provtagna infektionerna, bestämd med mikroskopi, var 21 960 parasiter/μL och varierade från 0 parasiter/μL (men positiv genom ett snabbt diagnostiskt test) till 241 260 parasiter/μL. Alla prover bekräftades vara positiva för P. falciparum genom PCR. För att säkerställa att endast oberoende infektioner inkluderades i analysen uteslöts infektioner inom en individ separerade med <14 dagar. DNA från röda blodkroppspellets extraherades med hjälp av Zainabadis metod et al [68]. Extraherat DNA berikades för parasit-DNA med användning av en optimerad selektiv helgenomamplifieringsmetod beskriven av Shah et al [65].

Helgenomsekvensering

Genomiska DNA-bibliotek konstruerades för sekvensering med användning av KAPA Library Preparation Kit (Kapa Biosystems, Woburn, MA). DNA (≥ 200 ng) fragmenterades med Covaris E210 till

200 bp. Bibliotek förbereddes med hjälp av en modifierad version av tillverkarens protokoll. DNA:t renades mellan enzymatiska reaktioner och urval av biblioteksstorlek utfördes med AMPure XT-kulor. Bibliotek utvärderades för koncentration och fragmentstorlek med användning av DNA High Sensitivity Assay på LabChip GX (Perkin Elmer, Waltham, MA). Bibliotekskoncentrationer utvärderades också med qPCR med användning av KAPA Library Quantification Kit. Bibliotek slogs samman och sekvenserades därefter på en Illumina HiSeq 4000 (Illumina, San Diego, CA) för att generera 150 bp läsvärden i par.

Läs kartläggning och SNP-anrop

Sekvenseringsdata analyserades genom att kartlägga råa fastq-filer till 3D7-referensgenomet med hjälp av Bowtie2 [69]. Binary Alignment Map-filer (BAM) bearbetades enligt GATK Best Practices-arbetsflödet för att erhålla analysklara läsningar [70,71]. Bedtools [72] användes för att generera täcknings- och djupuppskattningar från de bearbetade läsningarna, och GATK Best Practices-arbetsflödet följdes för variantanrop [70,71]. Haplotype Caller användes för att skapa filer i genomic variant call format (GVCF) för varje prov och gemensam SNP Calling utfördes (GATK v3.7). Varianter togs bort om de uppfyllde följande filtreringskriterier: variantkonfidens/kvalitet efter djup (QD) < 2.0, strängbias (FS) > 60.0, rotmedelvärde för mappningskvaliteten (MQ) < 40.0, mappningskvalitetsranksumma (MQRankSum) ) < -12,5, läs positionsrankningssumma (ReadPosRankSum) < -8,0, kvalitet (QUAL) < 50. Variantplatser med >20 % saknade genotyper och prover med >30 % saknade data togs dessutom bort med vcftools. Varianter togs också bort om den mindre allelen inte fanns i minst två prover. Endast kärngenomet användes för ytterligare analys, som tidigare har definierats genom uteslutning av de mycket variabla telomera och centromera regionerna i genomet [73]. Medianandelen av genomet som täcktes av ≥ 20 avläsningar var 88,9 % [65]. Efter att ha tillämpat kvalitetskontrollfilter anropades 55 970 SNP:er i kärngenomet, inklusive 22 177 icke-synonyma SNP:er, med i genomsnitt 11,6 varianter anropade per gen.

Definition av immunstatus

Graden av immunitet mot klinisk malaria definierades utifrån andelen symtomatiska infektioner av alla P. falciparum infektioner som upplevts av varje studiedeltagare under loppet av den tvååriga studien. För att ta hänsyn till exponeringen uteslöts individer med mindre än fem totala infektioner, inklusive symtomatiska och asymtomatiska infektioner, från analysen. Medianandelen symtomatiska infektioner användes som cutoff för att kategorisera individer i högre och lägre immunitetsgrupper. Den begränsade urvalsstorleken i vår studie tillät oss inte att kategorisera immunstatus som en ordinalvariabel.

Infektionskomplexitet och genetisk differentiering

Endast en infektion från varje individ inkluderades i jämförelser mellan grupper med hög och låg immunitet. Infektioner valdes baserat på närhet till medianen för fördelningen av provtagningsdatum för att minska tidsvariabiliteten. DEploid-IBD [39] användes för att uppskatta andelen av varje klon inom en infektion. Infektioner utan en dominerande klon (dvs. där majoritetsklonen hade en frekvens <60% inom infektionen) definierades som komplexa infektioner och exkluderades från nedströmsanalys. För de återstående proverna anropades huvudallelen vid heterozygota positioner om allelen stöddes av ≥70 % av avläsningarna annars, genotypen kodades som saknad. Ett Wilcoxon-Mann-Whitney-test användes för att bedöma skillnader i frekvensen av majoritetsklonen i infektioner från de två immunitetsgrupperna.

Vcftools [74] användes för att uppskatta Weir och Cockerham FST i variabla icke-synonyma, bialleliska ställen. Signifikansen bestämdes med hjälp av 10 000 permutationer, där den observerade populationen omsamplades utan ersättning. För att bestämma effekten av att utföra analysen baserat på den dominerande allelen på bialleliska platser, utförde vi också analysen med hjälp av multialleliska platser och alla alleler inom en infektion. Fastän FST värdena var generellt högre i analysen med flera alleler jämfört med analysen med en enda större allel, platser som var signifikant differentierade i analysen baserat på den stora allelen var också signifikant differentierade i analysen där mindre alleler också inkluderades. Nukleotiddiversitet vid signifikant differentierade platser uppskattades med hjälp av vcftools [74]. PlasmoDB (v44) [22] användes för att identifiera gener som innehåller differentierade SNP.

I alla polyklonala infektioner jämfördes de större och mindre klonerna (definierade av klonfrekvenser erhållna från DEploid-IBD [39]), förutsatt att klonfrekvensen var mindre än 80 % och större än 10 % (n = 23). Vid varje icke-synonymt ställe uppskattades andelen prover med felmatchade alleler från större och mindre kloner. Andelen felmatchningar jämfördes sedan mellan signifikant differentierade ställen och alla återstående variabla ställen från genomet. De sid-värde uppskattades genom att utföra ett Wilcoxon-Mann-Whitney-test för att fastställa om det finns en signifikant skillnad i felmatchningar mellan kloner på olika platser mot återstående genomomfattande variabla platser.

Parad infektionsanalys

Individer med parasithelgenomsekvensdata från minst två symtomatiska infektioner som inträffade med minst 14 dagars mellanrum inkluderades i jämförelsen av infektioner som förekommer inom samma värd och infektioner som förekommer i olika värdar. Multi-alleliska platser inkluderades i analysen av parade infektioner, i motsats till analyser av genetisk differentiering. "Inom"-gruppen inkluderade alla par av parasiter som samlats in vid olika tidpunkter från samma individ. "Mellangruppen" inkluderade alla par av parasiter från olika individer. Totalt 116 prover ingick i denna analys. Inomgruppen innehöll 124 par av prover och gruppen mellan innehöll 6546 par av prover. För alla par jämfördes det alleliska tillståndet vid varje ställe och andelen par med icke-matchande alleliska tillstånd uppskattades per ställe (illustrerad i fig 3). Skillnaden mellan gruppen inom gruppen och gruppen mellan grupperna beräknades genom att subtrahera andelen par med icke-matchande alleliska tillstånd för varje ställe. De p-värdet uppskattades genom att utföra ett ensidigt z-test med användning av skillnaden i andelen felmatchade alleler mellan de två grupperna. PlasmoDB [22] användes för att identifiera gener som innehåller SNP av intresse.

Global mångfald i klämma8

MalariaGEN Pf3K-projektets release 5.1-data [52] användes för att uppskatta global mångfald i dessa gener som identifierats i denna studie. Pf3K-datauppsättningen inkluderar sekvenseringsdata från hela genomet från 2 512 prover som samlats in på flera platser i Asien och Afrika. Data [53,54] från ytterligare 156 isolat från Papua Nya Guinea inkluderades också i analysen. VaxPack (https://github.com/BarryLab01/vaxpack) användes för genetisk analys av global population. GATKv4.0 användes för variantanrop. Prover innehållande tvetydiga baser togs bort. Singleton SNP omvandlades tillbaka till referens för att förhindra falskt positiva varianter. Nukleotiddiversitet och Tajimas D beräknades för alla polymorfa platser separat för varje land som hade en provstorlek större än 50. Templeton, Crandall och Sing (TCS) [75] metod på PopArt [76] användes för att konstruera haplotypnätverket med hjälp av icke-synonyma SNP. Proteinstörningsregion och B-cellsepitopregioner förutspåddes med hjälp av PlasmoSIP [62]. Haplotypfrekvenserna för den C-terminala regionen i malawiska isolat från olika immunitetsgrupper uppskattades för icke-synonyma platser med användning av DnaSP v6 [77].


Introduktion

Trots syndafloden av förvärvade datamängder med högkapacitetsgenperturbationsscreening (HT-GPS), är funktionen hos ett stort antal mänskliga gener fortfarande dåligt förstådd (Dey et al, 2015). Dessutom är genontologi (GO), den mest omfattande och strukturerade annoteringen av genfunktioner, till stor del begränsad till celltyps- och kontextoberoende genfunktioner (Huntley et al, 2015). Men genfunktionen är mycket kontextuell, även för encelliga organismer (Radivojac et al, 2013 Liberali et al, 2014). Därför finns det ett akut behov av nya metoder som möjliggör datadriven och kontextberoende funktionell genupptäckt baserat på mer komplexa fenotyper av flercelliga organismer.

Även om HT-GPS har visat sig vara en kraftfull metod för att upptäcka nya genfunktioner, har analysen av dessa datamängder förblivit en utmanande uppgift. Detta beror på komplexiteten hos fenotyper som störningen av en enskild gen kan leda till, eftersom en gen kan delta i olika funktioner i olika skalor. Dessa funktioner beror på genproduktens lokalisering i cellen (t.ex. cytoplasma mot kärna för transkriptionsfaktorer), cellcykeltillstånd (t.ex. G1-, G2- eller S-fas), celltyp, cell-cell och cell-mikromiljö-interaktioner och behandlingsförhållanden (Sero et al, 2015). Befintliga analyspipelines baserade på oövervakad klustring tar i allmänhet inte hänsyn till dessa faktorer. Följaktligen är resulterande fenotypiska kluster svåra att tolka eftersom de kan vara sammansatta av olika subfenotyper (Yin et al, 2013 Sailem et al, 2014). Dessa utmaningar undviks ofta, särskilt i bildbaserade skärmar, genom att endast analysera en liten del av informationen i HT-GPS-datauppsättningar (Singh et al, 2014) vilket i hög grad underutnyttjar deras potential.

Övervakad maskininlärning har använts framgångsrikt i många HT-GPS-studier (Held et al, 2010 Neumann et al, 2010 Shariff et al, 2010 Sullivan et al, 2018 Erasmus et al, 2019). En attraktiv lösning för att ta itu med bristen på fenotypiska anteckningar är utnyttjandet av befintlig biologisk kunskap för att bygga intelligenta system som kan identifiera funktionellt relevanta egenskaper och fenotyper.Detta tillvägagångssätt är svagt övervakat eftersom befintlig kunskap bara kan ge bullriga etiketter (Dutta et al, 2020). Tillvägagångssätt som använder befintliga funktionella anteckningar har framgångsrikt tillämpats på slutledning av vägaktivitet (Schubert et al, 2018) såväl som förutsägelse av proteinfunktioner från flera datatyper inklusive proteinsekvens och struktur, fylogeni, såväl som protein-protein-interaktioner och gensamuttrycksnätverk (Radivojac et al, 2013 Dey et al, 2015 Jiang et al, 2016). Dessutom har banbrytande arbete gjorts för att härleda datadriven genontologi i jäst (Kramer et al, 2014 Yu et al, 2016 Ma et al, 2018). Men såvitt vi vet har detta tillvägagångssätt inte tillämpats i samband med storskaliga HT-GPS-datauppsättningar i flercelliga organismer där genetisk redundans och fenotypisk komplexitet är mycket högre.

Systematisk utvärdering av genuppsättningar i biologiska sammanhang som skiljer sig från de där de är kända för att fungera kan avslöja värdefulla insikter om regleringen av biologiska system. Till exempel är genernas roller i utvecklingssammanhang, såsom mesodermutveckling (MSD), som involverar koordinering av cellmigration, celladhesion och cytoskelettorganisation genom TGFβ och WNT-signalering, ofta avreglerade inom ramen för kolorektal cancer ( Klinowska et al1994 McMahon et al, 2010 Kiecker et al, 2016). Därför kan identifiering av fenotypiska signaturer som är associerade med störande MSD-gener kasta ljus över hur dysreglering av MSD-gener kan bidra till utveckling av kolorektal cancer.

Vikten av att karakterisera kontextberoende genfunktioner kan exemplifieras av de ökande bevisen på rollen av luktreceptorer i sjukdomar som cancer (Lee et al, 2019). Luktreceptorer utgör den största genfamiljen hos människor (

400 gener) som upptäcktes 1991 i sensoriska neuroner. Men deras funktioner i icke-sensoriska vävnader är dåligt förstådda (Maßberg & Hatt, 2018). Att undersöka likheten mellan luktreceptorstörningsfenotyper och störningen av kända genprogram skulle möjliggöra upptäckten av deras funktioner i olika vävnadstyper.

Här föreslår vi KCML, ett nytt ramverk för automatiserad kunskapsupptäckt från storskalig HT-GPS. KCML är utformad för att ta hänsyn till pleiotropa och delvis penetrerande fenotypiska effekter av genförlust. Vi tillämpar detta ramverk på tre storskaliga datamängder genererade med olika metoder, som beskriver fenotyper på molekylär, cellulär och vävnadsnivå, och visar att den överträffar befintliga analyspipelines. Vi analyserar en cellorganisationsfenotyp som KCML identifierar och länkar till gener som är annoterade till termen Mesoderm Development (MSD). KCML-förutsägelser inkluderar många gener i TGFβ- och WNT-signalvägar såväl som många luktreceptorer. Genom en integrerad analys med genuttrycksdata från patienter med kolorektal cancer, validerar vi kopplingen mellan uttrycket av luktreceptorer och TGFβ och WNT-signalering och visar att uttrycket av vissa luktreceptorer kan stratifiera resultatet av patienter med högre grad av kolorektal cancer. Sammanfattningsvis är KCML ett flexibelt och systematiskt ramverk för att heltäckande analysera HT-GPS-datauppsättningar och identifiera kontext och vävnadsberoende genfunktioner.


Innehåll

Bokbeskrivning

Denna "lärobok" är interaktiv, vilket innebär att även om varje kapitel har text, har de också interaktivt HTML5-innehåll, såsom frågesporter, simuleringar, interaktiva videor och bilder med klickbara hotspots. Eleverna får omedelbar feedback när de slutför det interaktiva innehållet och kan därför lära sig och kontrollera sin förståelse på ett och samma ställe. Jag anser fortfarande att den här läroboken är ganska texttung och kommer fortsätta att göra den ännu mer interaktivt innehåll!

Bilden på omslaget representerar skapandet av denna bok. Jag hämtade det mesta av innehållet från öppna resurser, modifierade dem, lade till frågor och erbjuder dem nu att använda!

Jag valde innehållet för att passa ihop med två kurser som jag undervisar i: miljö- och organismtillämpningar och biomedicinska applikationer. Modul 1 introducerar eleverna till naturvetenskap, som båda kurserna använder. Del 2 täcker innehåll som är nödvändigt för att förstå bevarandeimplikationer (kursens underliggande tema är de-extinktion), och del 3 fokuserar på proteiner så att eleverna kan förstå implikationerna av att modifiera DNA (det underliggande temat är CRISPR).

Använd den här boken som du tycker är lämplig för dina klasser. Jag ser fram emot att höra hur man kan göra den här boken ännu mer användbar i framtiden!