Preview

Информатика

Расширенный поиск

Разработка базы данных мотивов регуляции транскрипции у бактерий

https://doi.org/10.37661/1816-0301-2022-19-1-59-71

Полный текст:

Аннотация

Ц е л и. Объемы данных, генерируемые современными методами высокопроизводительного секвенирования, таковы, что их анализ выполняется преимущественно в автоматическом режиме. В частности, использование вновь расшифрованных геномных последовательностей возможно только после аннотации функциональных элементов генома, которая, как правило, выполняется автоматическими конвейерами. Такие конвейеры аннотации успешно справляются с идентификацией генов, но ни один из них не аннотирует регуляторные элементы, без которых нельзя понять, когда и как гены могут экспрессироваться. Информация о регуляторных элементах бактерий собрана в нескольких специализированных базах данных (RegulonDB, CollecTF, Prodoric2 и др.), однако только часть этой информации можно использовать для аннотации регуляторных элементов и только у очень ограниченного круга бактерий. Ранее авторами был предложен четкий формальный критерий для применения регуляторной информации к любым бактериальным геномам. Таким критерием стал CR-тег – последовательность аминокислотных остатков транскрипционного регулятора, специфически контактирующих с азотистыми основаниями регуляторного элемента в геномной ДНК. Связанная с CR-тегом математическая модель регуляторного элемента (мотив) может быть корректно применена для аннотации подобных элементов в любых геномах, кодирующих транскрипционный регулятор с идентичным CR-тегом. Накопление связанных с CR-тегами мотивов поставило вопрос об их упорядоченном хранении для удобства последующего применения при аннотации геномных последовательностей. Поскольку ни одна из известных баз данных не использует концепцию CR-тегов, потребовалась разработка новой базы данных. Таким образом, целью работы является создание базы данных с информацией о бактериальных транскрипционных факторах и распознаваемых ими последовательностях ДНК, пригодной для аннотации регуляторных последовательностей в бактериальных геномах.

М е то д ы .  Инфологическое моделирование предметной области производилось с помощью методологии IDEF1X. Разработка базы данных выполнялась посредством СУБД Microsoft SQL Server. Кроссплатформенное приложение по импорту данных в базу данных написано на языке C++ с использованием технологии Qt.

Р е з у л ь т а т ы . В результате проведенного исследования предметной области была разработана и реализована в СУБД Microsoft SQL Server реляционная модель данных, позволяющая целостное хранение информации  о  накопленных  мотивах  регуляции  транскрипции  у  бактерий,  включая  и  информацию о публикациях, подтверждающих корректность этих мотивов. Для автоматизации процесса ввода накопленных данных разработано кроссплатформенное приложение для импорта структурированных данных о транскрипционных факторах.

З а к л ю ч е н и е .  Основным отличием разработанной базы данных является использование концепции CR-тега. Записи математических моделей регуляторных элементов (мотивов) в базе данных связаны с CR-тегом и поэтому могут быть корректно применены для аннотации подобных элементов в любых геномах, кодирующих транскрипционный регулятор с идентичным CR-тегом. Разработанная база данных обеспечит структурированное и целостное хранение данных, а также их быстрый поиск при использовании в конвейере автоматической аннотации регуляторных элементов в бактериальных геномных последовательностях.

Об авторах

В. В. Скакун
Белорусский государственный университет
Беларусь

Скакун Виктор Васильевич - кандидат физико-математических наук, доцент, заведующий кафедрой.

пр. Независимости, 4, Минск, 220030.



Е. А. Николайчик
Белорусский государственный университет
Беларусь

Николайчик Евгений Артурович - кандидат биологических наук, доцент.

пр. Независимости, 4, Минск, 220030.



Список литературы

1. Van Hijum, S. A. F. T. Mechanisms and evolution of control logic in prokaryotic transcriptional regulation / S. A. F. T. van Hijum, M. H. Medema, O. P. Kuipers // Microbiology and Molecular Biology Reviews. – 2009. – Vol. 73, no. 3. – P. 481–509. https://doi.org/10.1128/MMBR.00037-08

2. Browning, D. F. Local and global regulation of transcription initiation in bacteria / D. F. Browning, S. J. W. Busby // Nature Reviews Microbiology. – 2016. – Vol. 14, no. 10. – P. 638–650. https://doi.org/10.1038/nrmicro.2016.103

3. Stormo, G. D. DNA binding sites: representation and discovery / G. D. Stormo // Bioinformatics. – 2000. – Vol. 16, no. 1. – P. 16–23. https://doi.org/10.1093/bioinformatics/16.1.16

4. Rodionov, D. A. Comparative genomic reconstruction of transcriptional regulatory networks in bacteria / D. A. Rodionov // Chemical Reviews. – 2007. – Vol. 107, no. 8. – P. 3467–3497. https://doi.org/10.1021/cr068309+

5. Gelfand, M. S. Evolution of transcriptional regulatory networks in microbial genomes / M. S. Gelfand // Current Opinion in Structural Biology. – 2006 – Vol. 16, no. 3. – P. 420–429. https://doi.org/10.1016/j.sbi.2006.04.001

6. Lozada-Chavez, I. Bacterial regulatory networks are extremely flexible in evolution / I. Lozada-Chavez // Nucleic Acids Research. – 2006. – Vol. 34, no. 12. – P. 3434–3445. https://doi.org/10.1093/nar/gkl423

7. Perez, J. C. Evolution of transcriptional regulatory circuits in bacteria / J. C. Perez, E. A. Groisman // Cell. – 2009. – Vol. 138, no. 2. – P. 233–244. https://doi.org/10.1016/j.cell.2009.07.002

8. RegulonDB v 10.5: tackling challenges to unify classic and high throughput knowledge of gene regulation in E. coli K-12 / A. Santos-Zavaleta [et al.] // Nucleic Acids Research. – 2019. – Vol. 47, no. D1. – P. D212–D220. https://doi.org/10.1093/nar/gky1077

9. CollecTF: a database of experimentally validated transcription factor-binding sites in Bacteria / S. Kılıç [et al.] // Nucleic Acids Research. – 2014. – Vol. 42, iss. D1. – P. D156–D160. https://doi.org/10.1093/nar/gkt1123

10. PRODORIC (release 2009): a database and tool platform for the analysis of gene regulation in prokaryotes / A. Grote [et al.] // Nucleic Acids Research. – 2009. – Vol. 37, iss. suppl_1. – P. D61–D65. https://doi.org/10.1093/nar/gkn837

11. CoryneRegNet 7, the reference database and analysis platform for corynebacterial gene regulatory networks / M. T. D. Parise [et al.] // Scientific Data. – 2020. – Vol. 7, no. 1. – P. 142. https://doi.org/10.1038/s41597-020-0484-9

12. RegPrecise 3.0 – A resource for genome-scale exploration of transcriptional regulation in bacteria / P. S. Novichkov [et al.] // BMC Genomics. – 2013. – Vol. 14. – P. 745. https://doi.org/10.1186/1471-2164-14-745

13. Nikolaichik, Y. SigmoID: a user-friendly tool for improving bacterial genome annotation through analysis of transcription control signals / Y. Nikolaichik, A. U. Damienikan // PeerJ. – 2016. – Vol. 4. – P. e2056. https://doi.org/10.7717/peerj.2056

14. Nikolaichik, Y. Genome-wide inference of bacterial transcription factor binding sites: new method and its applications / Y. Nikolaichik, P. Vychik // BMC Bioinformatics. – 2020. – Vol. 21, no. S20. – P. O2. https://doi.org/10.1186/s12859-020-03838-2

15. Nikolaichik, Y. New approach to genome-wide automated inference of bacterial transcription factor binding sites / Y. Nikolaichik, P. Vychik // Abstracts of the XII Intern. Multiconf. "Bioinformatics of Genome Regulation and Structure/Systems Biology". – Novosibirsk, 2020. – Р. 75–76. https://doi.org/10.18699/BGRS/SB-2020-046

16. Sahota, G. Novel sequence-based method for identifying transcription factor binding sites in prokaryotic genomes / G. Sahota, G. D. Stormo // Bioinformatics. – 2010. – Vol. 26, no. 21. – P. 2672–2677. https://doi.org/10.1093/bioinformatics/btq501

17. Скакун, В. В. Системы управления базами данных : пособие / В. В. Скакун. – Минск : БГУ, 2020. – 159 с.

18. The Pfam protein families database: towards a more sustainable future / R. D. Finn [et al.] // Nucleic Acids Research. – 2016. – Vol. 44, no. D1. – P. D279–D285. https://doi.org/10.1093/nar/gkv1344

19. Letunic, I. 20 years of the SMART protein domain annotation resource / I. Letunic, P. Bork // Nucleic Acids Research. – 2018. – Vol. 46, no. D1. – P. D493–D496. https://doi.org/10.1093/nar/gkx922

20. Нильсен, П. SQL Server 2005. Библия пользователя : пер с англ. / П. Нильсен. – М. : Вильямс, 2008. – 1232 с.

21. Грофф, Д. П. SQL. Полное руководство : пер. с англ. / Д. П. Грофф, П. Н. Вайнберг, Э. Д. Оппель. – 3-е изд. – М. : Вильямс, 2016. – 960 с.

22. The MEME Suite / T. L. Bailey [et al.] // Nucleic Acids Research. – 2015. – Vol. 43, no. W1. – P. W39–W49. https://doi.org/10.1093/nar/gkv416


Рецензия

Для цитирования:


Скакун В.В., Николайчик Е.А. Разработка базы данных мотивов регуляции транскрипции у бактерий. Информатика. 2022;19(1):59-71. https://doi.org/10.37661/1816-0301-2022-19-1-59-71

For citation:


Skakun V.V., Nikolaichik Y.A. Development of a bacterial regulatory motif database. Informatics. 2022;19(1):59-71. (In Russ.) https://doi.org/10.37661/1816-0301-2022-19-1-59-71

Просмотров: 110


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1816-0301 (Print)
ISSN 2617-6963 (Online)