Bioinformatikk

fra Wikipedia, den frie encyklopedi
Hopp til navigasjon Hopp til søk
Influensavirus overflateprotein (modell)

Bioinformatikk ( engelsk bioinformatikk , også beregningsbiologi ) er en tverrfaglig vitenskap som løser problemer fra biovitenskapene med teoretiske datamaskinassisterte metoder. Hun har bidratt til den grunnleggende kunnskapen om moderne biologi og medisin. Bioinformatikk oppnådde beryktethet i media først og fremst i 2001 med sitt betydelige bidrag til sekvensering av det menneskelige genomet .

Bioinformatikk regnes som et mindre emne i tysk universitetspolitikk. [1] Bioinformatikk er et bredt forskningsfelt , både når det gjelder problemer og metodene som brukes. Viktige områder innen bioinformatikk er håndtering og integrering av biologiske data, sekvensanalyse , strukturell bioinformatikk og analyse av data fra metoder med høy gjennomstrømning (~ omics). Siden bioinformatikk er uunnværlig for å analysere data i stor skala, danner den en viktig søyle i systembiologi .

I den engelsktalende verden står bioinformatikk ofte i kontrast med beregningsbiologi , som dekker et bredere område enn klassisk bioinformatikk, men begge begrepene brukes vanligvis synonymt .

Dataledelse

Den raskt voksende mengden biologiske data, spesielt DNA- og proteinsekvenser , deres merknad , 3D -proteinstrukturer , interaksjoner mellom biologiske molekyler og høy gjennomstrømningsdata fra mikroarrays , for eksempel, stiller spesielle krav til håndteringen av disse dataene. Et viktig problem i bioinformatikk er derfor utarbeidelse og lagring av data i passende indekserte og koblede biologiske databaser . [2] Fordelene ligger i den ensartede strukturen, lettere søkbarhet og automatisering av analyser med programvare.

En av de eldste biologiske databasene er Protein Data Bank , PDB, for data om 3D -strukturer av biologiske makromolekyler, for det meste proteiner. På 1980-tallet ble det opprettet databaser for å administrere nukleotidsekvenser ( EMBL Data Library , GenBank ) og aminosyresekvenser ( Protein Information Resource , Swiss-Prot). Nukleotidsekvensdatabasene som ble slått sammen i International Nucleotide Sequence Database Cooperation er, som primære databaser, arkiver med originale data levert av forskerne selv. I kontrast gir UniProt , sammenslåingen av PIR og Swiss-Prot, høykvalitets, fagmessig vedlikeholdte og kommenterte oppføringer av proteinsekvenser med omfattende informasjon om hvert enkelt protein, som suppleres med proteinsekvenser automatisk oversatt fra EMBL-banken uten ytterligere merknad .

Andre databaser inneholder gjentagende motiver i proteinsekvenser ( Pfam ), informasjon om enzymer og biokjemiske komponenter ( BRENDA , KEGG LIGAND og ENZYME), om protein-protein [3] eller protein-DNA-interaksjoner ( TRANSFAC ), om metabolske og regulatoriske nettverk (KEGG , REACTOME) og mye mer.

Størrelsen på de enkelte databasene vokser eksponentielt i noen tilfeller. [4] Antallet relevante databaser vokser også jevnt (over 350 verden over). [5] Når du søker etter relevant informasjon, brukes ofte bioinformatikk metasøkemotorer ( Bioinformatik-Harvester , Entrez , EBI SRS ).

Mangfoldet av databaser som er tilgjengelige over hele verden, fører ofte til redundant og derfor feilutsatt datahåndtering, spesielt siden DNA-sekvenser delvis er i fragmenter og delvis i fullstendig sammensatte genomer. Ideelt sett vil lagring av genom- og proteomdata tillate en rekonstruksjon av reglene for en hel organisme. Det arbeides intensivt med kartlegging av identifiserte proteiner til genene som koder for dem og omvendt, på koblingene mellom dem for å representere deres interaksjoner, og om tildeling av proteiner til metabolske og regulatoriske veier.

En annen oppgave i dataintegrasjon er opprettelsen av kontrollerte vokabularer og ontologier , som gjør det mulig å tilordne funksjonsnavn på alle nivåer. Gene Ontology Consortium (GO) prøver for tiden å etablere en konsistent nomenklatur for molekylær funksjon, den biologiske prosessen og cellelokalisering av genprodukter.

Sekvensanalyse

De første rene bioinformatikkapplikasjonene ble utviklet for DNA -sekvensanalyse og for sekvenssammenligninger . Sekvensanalyse handler først og fremst om å raskt finne mønstre i protein- eller DNA -sekvenser. Sekvensjustering innebærer spørsmålet om to gener eller proteiner er relatert til hverandre (" homolog "). For dette formålet plasseres sekvensene oppå hverandre og justeres med hverandre på en slik måte at best mulig avtale oppnås. Hvis korrespondansen er betydelig bedre enn man kan forvente av en tilfeldig likhet, kan man konkludere med at de er beslektede: I gener og proteiner innebærer relasjon alltid en lignende struktur og vanligvis en lignende funksjon. Den sentrale betydningen av sekvenssammenligningen for bioinformatikk ligger i bruken av sekvensen og strukturforutsigelsen av ukjente, mistenkte gener . Videre brukes algoritmer for dynamisk programmering og heuristiske algoritmer. Dynamisk programmering gir optimale løsninger, men på grunn av de nødvendige datamaskinressursene kan den ikke brukes i praksis på veldig lange sekvenser eller svært store databaser. Heuristiske algoritmer er egnet for å søke i de store, globalt tilgjengelige databasene som arkiverer alle kjente sekvenser; Selv om de ikke garanterer optimale resultater, tjener de fortsatt så godt at det daglige arbeidet til bioinformatikere og molekylærbiologer ikke ville være mulig uten bruk av BLAST -algoritmen, for eksempel. Andre ofte brukte algoritmer som oppfyller forskjellige funksjoner avhengig av applikasjonsområde er FASTA , Needleman-Wunsch eller Smith-Waterman .

Når det gjelder biologiske spørsmål, er det sjelden nødvendig å søke etter eksakte samsvar med korte sekvenseksjoner, vanligvis etter grensesnitt for restriksjonsenzymer i DNA -sekvenser, og muligens også til sekvensmønstre i proteiner, fra PROSITE -databasen.

Bioinformatikk spiller også en stor rolle i genomanalyse . DNA -fragmentene, som er sekvensert i små enheter, kombineres til en generell sekvens ved hjelp av bioinformatiske metoder.

Var ytterligere metoder for å finne gener i ukjente DNA -sekvenser designet ( genprediksjon , Eng. Genfunn eller genprediksjon). Dette problemet løses ved hjelp av forskjellige beregningsmetoder og algoritmer , inkludert statistisk sekvensanalyse, Markov -kjeder , kunstige nevrale nettverk for mønstergjenkjenning , etc.

Både DNA- og aminosyresekvenser kan brukes til å lage fylogenetiske trær som representerer den evolusjonære utviklingen av dagens levende vesener fra stort sett ukjente og derfor hypotetiske forfedre.

Strukturell bioinformatikk

Datastøttet visualisering av glukokortikoidreseptoren ( PDB 1GLU ) bundet til et kort DNA-molekyl med en spesifikk nukleotidsekvens. Overflaten på proteinet ble farget i henhold til de elektrostatiske egenskapene. Laget med BALLView .

Med avklaring og omfattende funksjonsanalyse av forskjellige komplette genomer , skifter fokus for bioinformatisk arbeid til spørsmål om proteomikk , f.eks. B. problemet med proteinfolding og strukturforutsigelse , dvs. spørsmålet om den sekundære eller tertiære strukturen for en gitt aminosyresekvens . Spørsmålet om proteiners interaksjon med forskjellige ligander (nukleinsyrer, andre proteiner eller enda mindre molekyler) blir også undersøkt, ettersom dette kan brukes til å hente ikke bare kunnskap for grunnforskning, men også viktig informasjon for medisin og apotek , for eksempel om hvordan en mutasjon endret protein påvirker kroppens funksjoner eller hvilke medisiner som fungerer på hvilken måte på forskjellige proteiner.

Se også

litteratur

weblenker

Wiktionary: bio -informatique - forklaringer på betydninger, ordopprinnelse, synonymer, oversettelser
Commons : Bioinformatikk - samling av bilder, videoer og lydfiler

Individuelle bevis

  1. Små fag: Bioinformatikk på portalen for små fag. Hentet 12. juni 2019 .
  2. TK Attwood, A. Gisel, N.-E. Eriksson, E. Bongcam-Rudloff: Konsepter, historiske milepæler og det sentrale stedet for bioinformatikk i moderne biologi: Et europeisk perspektiv . I: Mahmood A Mahdavi (red.): Bioinformatikk - trender og metoder . InTech, 2011, ISBN 978-953-307-282-1 , doi : 10.5772 / 23535 .
  3. Intakt protein-interaksjon databasen ved EBI .
  4. GenBank Growth , Statistics 1982–2008
  5. ^ Michael Y. Galperin, Guy R. Cochrane: Nukleinsyreforskningsdatabasespørsmålet for 2011 og den elektroniske databasesamlingen for molekylærbiologi . I: Nucleic Acids Research . teip   39 , suppl 1, 1. januar 2011, s.   D1-D6 , doi : 10.1093 / nar / gkq1243 .