Před dvanácti měsíci společnost DeepMind zabývající se umělou inteligencí ohromila vědeckou komunitu zveřejněním predikovaných struktur přibližně 350 000 proteinů. Tento počin byl oceněn i jedním z nejprestižnějších vědeckých časopisů Science – získal totiž prestižní cenu Průlom roku 2021, kterou tento odborný žurnál každoročně vyhlašuje.
Koncem července tohoto roku však DeepMind a jeho partneři dosáhli ještě mnohem většího úspěchu – odhalili predikované struktury téměř všech známých proteinů, kterých je více než 200 milionů. Jedná se o jeden z největších pokroků umělé inteligence v přírodních vědách. Informace, které se díky tomu dostaly do rukou vědcům, mohou být využity například při vývoji nových léčiv či v evolučních studiích.
„Ukazujeme predikované struktury téměř kompletního proteinového světa,“ uvedl Demis Hassabis, zakladatel a generální ředitel společnosti DeepMind, na tiskové konferenci v Londýně.
Today in partnership with @emblebi, we’re releasing predicted structures for nearly all catalogued proteins known to science, which will expand the #AlphaFold database by over 200x - from nearly 1 million to 200+ million structures: https://t.co/GjVES2pBFY 1/ pic.twitter.com/lp8qunbUiX
— DeepMind (@DeepMind) July 28, 2022
Za tímto nebývalým úspěchem stojí systém umělé inteligence AlphaFold, který rozluštil problém proteinového foldingu (způsob, jakým se protein během syntézy sbaluje do výsledné 3D struktury), což dosud byla jedna z největších výzev strukturní biologie. Díky AlphaFoldu nyní mají vědci přístup k přesným predikcím 3D tvarů proteinů, které jsou odvozeny z jejich aminokyselinových sekvencí.
Nově predikované struktury byly zaneseny do veřejně dostupné databáze AlphaFold Protein Structure Database, která je spravována společností DeepMind společně s velmi prestižním Evropským institutem pro bioinformatiku při Evropské laboratoři molekulární biologie (EMBL-EBI). „Databáze poskytuje strukturním biologům výkonný nástroj, který jim umožňuje vyhledávat 3D struktury libovolných proteinů téměř stejně snadno, jako lze vyhledávat pomocí klíčových slov na Googlu,“ uvádí Hassabis.
Volně dostupné predikované struktury byly zároveň zaneseny do jiné veřejně dostupné databáze UniProt, která je nejkvalitnější proteinovou databází vůbec a vědcům poskytuje informace nejen o aminokyselinové sekvenci daného proteinu, ale také informace ohledně jeho funkce a další údaje. V praxi to znamená, že všechny dostupné informace o daném proteinu jsou pro vědce dostupné na jednom místě, a ti je tak mohou velmi efektivně využívat pro svoje bádání.
„AlphaFold je jedinečný a významný pokrok v přírodních vědách, který demonstruje sílu umělé inteligence,“ napsal Eric Topol, ředitel Scripps Research Translational Institute, na Twitteru. „S tímto novým přidáním struktur téměř kompletního proteinového spektra do databáze můžeme očekávat, že každý den budou vyřešeny další a další biologické záhady."
Pro představu, experimentálně stanovené struktury jsou k dispozici pro přibližně 190 000 proteinů. Predikce struktury provedené AlpfaFoldem dosud existovaly pro přibližně 1 milion proteinů. A nyní je k dispozici predikovaná struktura pro více než 200 milionů proteinů. Jedná se tedy o skutečně průlomový úspěch, který otevírá dveře novému výzkumu. „Mnoho vědců po celém světě to přiměje přemýšlet o tom, kam jejich další výzkum může směřovat a jaké další experimenty nyní mohou dělat,“ uvedl na tiskové konferenci zástupce generálního ředitele EMBL Ewan Birney.
A big day for #AI in life science. Release of >200 million predicted 3D protein structures from open-source #AlphaFold, nearly the entire protein universe
— Eric Topol (@EricTopol) July 28, 2022
See: https://t.co/gjASHqACqa @DeepMind
my comment below pic.twitter.com/yPgtPHMZac
Proteiny, které AlphaFold vyřešil, pocházejí ze všech možných organismů od bakterií přes rostliny až po obratlovce, včetně myší a zebřiček (běžné modelové organismy využívané ve výzkumu) a samozřejmě lidí. Kathryn Tunyasuvunakool, vědecká pracovnice DeepMind, uvedla, že AlphaFoldu trvalo zhruba 10 až 20 sekund, než vytvořil predikci pro jeden protein. Dosud přitom tento úkol zabral umělé inteligenci několik měsíců až let, jak dodal Eric Topol.
Najednou tak vzniklo ve velmi krátké době velké množství biologických dat, která je potřeba vhodně spravovat – jen tak může být jejich potenciál plně využit. Společnost DeepMind tak navázala spolupráci s EMBL-EBI (leader co se týká práce s velkými biologickými daty) za účelem, aby dokázala prezentovat obrovské množství nově získaných dat v databázi vhodným způsobem.
DeepMind uvádí, že databázi od jejího spuštění v loňském roce již použilo více než 500 000 výzkumníků ze dvou set různých zemí. Hassabis předpověděl „novou éru v digitální biologie“, ve které by vědci vyvíjející nová léčiva mohli přejít od umělou inteligencí předpovězených struktur proteinů, které jsou ze zdravotnického hlediska důležité, až k využití umělé inteligence k navrhování malých molekul, které tyto proteiny ovlivňují – a tím dosáhnout léčebného efektu.
Další výzkumníci používají predikce proteinové struktury k vývoji kandidátů na vakcíny, využívají je k zodpovězení biologických otázek v rámci základního výzkumu, nebo ke zkoumání evoluce proteinů, a tedy otázek ohledně toho, kdy se poprvé vyvinul život.
Hassabis nicméně upozorňuje, že dostupnost predikovaných struktur je pouze výchozím bodem pro výzkum. „Stále platí, že veškeré predikce je třeba experimentálně ověřit, a proto zůstává spousta biologie a spousta chemie, kterou je třeba ještě udělat.“ Nicméně to, že vědci mají přístup k predikovaným strukturám představuje velkou výhodu a jedná se tak o jeden z největších úspěchů umělé inteligence v přírodních vědách za poslední dobu.
Zdroj: Science, ChemistryWorld
Zdroj titulního obrázku: Argonne National Laboratory, Flickr
Na CZECHSIGHT si můžete přečíst i o dalších úspěších umělé inteligence:






Michaela Novotná
V rámci svého doktorského studia mikrobiologie na Univerzitě Karlově se zabývá antibiotickou rezistencí u stafylokoků. Pokud není zrovna v laborce, vydává se do přírody nebo si přečte dobrou knížku.
Vstup do diskuze