
Държавен университет на Аризона
Микроскопичните организми, които изпълват телата ни, почвите, океаните и атмосферата, играят съществена роля за човешкото здраве и екосистемите на планетата. Но дори и със съвременното ДНК секвениране, разбирането какво представляват тези микроби и как са свързани помежду си остава изключително трудно.
В две нови проучвания, изследователи от Държавния университет на Аризона (ASU) представят мощни инструменти, които правят тази работа по-лесна, по-точна и много по-мащабируема.
-
Единият инструмент подобрява начина, по който учените изграждат микробни родословни дървета.
-
Другият предоставя софтуерна основа, използвана в световен мащаб за анализ на биологични данни.
Заедно тези постижения укрепват научните основи на изследванията на микробиома, проследяването на заболяванията, мониторинга на околната среда и нововъзникващи области като прецизната медицина.
«Нашият екип разработва софтуерни инструменти с отворен код, защото вярваме, че когато всеки има достъп до научни инструменти и ги разширява, цялата общност печели и откритията се ускоряват.» Qiyun Zhu, Държавен университет на Аризона
Джу е изследовател в Центъра за биодизайн за фундаментална и приложна микробиомика и асистент в Училището по науки за живота към ASU. Към него се присъединяват колеги от ASU и международни сътрудници.
Първото проучване, върху подобряването на маркерните гени, е публикувано в списанието «Nature Communications». Второто проучване, описващо библиотека с отворен код, известна като «scikit-bio», е публикувано в «Nature Methods».
TMarSel: Изграждане на по-точни микробни родословни дървета
Изграждането на подробни и точни еволюционни дървета е от съществено значение за разбирането как микробите еволюират и влияят на света. По-добрите еволюционни дървета:
-
Подобряват проследяването на заболяванията и помагат на учените да следят как вредните микроби се променят с течение на времето.
-
Изострят изследванията в областта на околната среда, показвайки как микробните общности реагират на замърсяване или климатични промени.
-
Засилват изследванията на чревния микробиом и неговата роля за здравето.
Разкриването на това как микробите са свързани започва с избора на правилните маркерни гени – указателните знаци в ДНК, които проследяват тяхната еволюционна история.
В продължение на много години учените разчитаха на един и същ малък набор от традиционни маркерни гени. Но в разрастващата се област на метагеномиката, изследователите сега работят с милиони геноми, често директно от проби от околната среда. Метагеномиката позволява на учените да съберат цялата ДНК в дадена среда и да я секвенират наведнъж, разкривайки цели скрити съобщества от микроби. Тези геноми са изключително ценни, но често са непълни или с неравномерно качество. Това затруднява използването на фиксиран набор от маркерни гени и очакването на точни еволюционни резултати.
За да решат този проблем, Джу и колегите му помогнаха за разработването на TMarSel (съкращение от Tree-based Marker Selection – Подбор на маркери, базирани на дървета). Вместо да избира гени на ръка, TMarSel автоматично претърсва хиляди възможни генни семейства и избира комбинацията, която изгражда най-надеждното еволюционно дърво. Той оценява всеки ген по това:
-
Колко е често срещан.
-
Колко е информативен.
-
Доколко допринася за стабилна и смислена картина на микробните взаимоотношения.
Резултатът е гъвкав, базиран на данни начин за изграждане на микробни дървета, които работят добре дори за големи и разнообразни групи организми – и дори когато много геноми са само частично завършени.
Scikit-bio: Софтуерният център за анализ на масиви от данни
Джу е и водещ разработчик на scikit-bio, обширна библиотека със софтуер с отворен код. Scikit-bio предоставя на учените инструментите, от които се нуждаят, за да анализират огромни биологични масиви от данни. Той е особено полезен за изучаване на микробиоми – съобщества от микроби, които живеят в специфична среда, като например човешките черва.
Биологичните набори от данни са различни от всеки друг вид данни: те са изключително големи, много оскъдни и често включват хиляди взаимосвързани характеристики. Стандартните програми за анализ на данни не са създадени за това ниво на фрагментация и сложност. Scikit-bio запълва тази празнота, като предлага повече от 500 функции за задачи като:
-
Сравняване на микробни съобщества.
-
Изчисляване на разнообразието.
-
Трансформиране на композиционни данни.
-
Анализиране на ДНК, РНК и протеинови последователности.
-
Изграждане и модифициране на филогенетични дървета.
-
Подготовка на данни за машинно обучение.
Проектът е ръководен от общността, подкрепян от повече от 80 сътрудници и поддържан чрез строги тестове и документация. Той вече е цитиран в десетки хиляди научни статии в областта на медицината, екологията, климатологията и раковата биология. Той се превърна в основен инструмент за изследователите, анализиращи микробиома и други големи, богати на данни области на съвременната биология.
С нарастването на биологичните набори от данни, инструменти като scikit-bio и TMarSel правят мащабните изследвания по-надеждни и възпроизводими. Проучванията затвърждават нарастващата роля на ASU в пресечната точка на биологията и изчисленията. Работата на Джу показва как комбинирането на еволюционни прозрения с напреднало софтуерно инженерство може да създаде инструменти, използвани от учени по целия свят.
Тъй като секвенирането на ДНК продължава да става по-бързо и по-евтино, учените ще разкрият още повече от микробната вселена. Инструменти като TMarSel и scikit-bio гарантират, че този поток от данни може да бъде превърнат в реални научни прозрения.
Източник:
Държавен университет на Аризона
Справка в списанието:
Aton, M., et al . (2025). Scikit-bio: фундаментална Python библиотека за анализ на биологични омични данни. Nature Methods . DOI:10.1038/s41592-025-02981-z. https://www.nature.com/articles/s41592-025-02981-z .