Разработка базы данных мотивов регуляции транскрипции у бактерий
https://doi.org/10.37661/1816-0301-2022-19-1-59-71
Аннотация
Ц е л и. Объемы данных, генерируемые современными методами высокопроизводительного секвенирования, таковы, что их анализ выполняется преимущественно в автоматическом режиме. В частности, использование вновь расшифрованных геномных последовательностей возможно только после аннотации функциональных элементов генома, которая, как правило, выполняется автоматическими конвейерами. Такие конвейеры аннотации успешно справляются с идентификацией генов, но ни один из них не аннотирует регуляторные элементы, без которых нельзя понять, когда и как гены могут экспрессироваться. Информация о регуляторных элементах бактерий собрана в нескольких специализированных базах данных (RegulonDB, CollecTF, Prodoric2 и др.), однако только часть этой информации можно использовать для аннотации регуляторных элементов и только у очень ограниченного круга бактерий. Ранее авторами был предложен четкий формальный критерий для применения регуляторной информации к любым бактериальным геномам. Таким критерием стал CR-тег – последовательность аминокислотных остатков транскрипционного регулятора, специфически контактирующих с азотистыми основаниями регуляторного элемента в геномной ДНК. Связанная с CR-тегом математическая модель регуляторного элемента (мотив) может быть корректно применена для аннотации подобных элементов в любых геномах, кодирующих транскрипционный регулятор с идентичным CR-тегом. Накопление связанных с CR-тегами мотивов поставило вопрос об их упорядоченном хранении для удобства последующего применения при аннотации геномных последовательностей. Поскольку ни одна из известных баз данных не использует концепцию CR-тегов, потребовалась разработка новой базы данных. Таким образом, целью работы является создание базы данных с информацией о бактериальных транскрипционных факторах и распознаваемых ими последовательностях ДНК, пригодной для аннотации регуляторных последовательностей в бактериальных геномах.
М е то д ы . Инфологическое моделирование предметной области производилось с помощью методологии IDEF1X. Разработка базы данных выполнялась посредством СУБД Microsoft SQL Server. Кроссплатформенное приложение по импорту данных в базу данных написано на языке C++ с использованием технологии Qt.
Р е з у л ь т а т ы . В результате проведенного исследования предметной области была разработана и реализована в СУБД Microsoft SQL Server реляционная модель данных, позволяющая целостное хранение информации о накопленных мотивах регуляции транскрипции у бактерий, включая и информацию о публикациях, подтверждающих корректность этих мотивов. Для автоматизации процесса ввода накопленных данных разработано кроссплатформенное приложение для импорта структурированных данных о транскрипционных факторах.
З а к л ю ч е н и е . Основным отличием разработанной базы данных является использование концепции CR-тега. Записи математических моделей регуляторных элементов (мотивов) в базе данных связаны с CR-тегом и поэтому могут быть корректно применены для аннотации подобных элементов в любых геномах, кодирующих транскрипционный регулятор с идентичным CR-тегом. Разработанная база данных обеспечит структурированное и целостное хранение данных, а также их быстрый поиск при использовании в конвейере автоматической аннотации регуляторных элементов в бактериальных геномных последовательностях.
Ключевые слова
Для цитирования:
Скакун В.В., Николайчик Е.А. Разработка базы данных мотивов регуляции транскрипции у бактерий. Информатика. 2022;19(1):59-71. https://doi.org/10.37661/1816-0301-2022-19-1-59-71
For citation:
Skakun V.V., Nikolaichik Y.A. Development of a bacterial regulatory motif database. Informatics. 2022;19(1):59-71. (In Russ.) https://doi.org/10.37661/1816-0301-2022-19-1-59-71