Preview

Информатика

Расширенный поиск

Вычислительный подход и программный пакет RNAexploreR для группировки молекул РНК генов человека по их экзонным признакам

Полный текст:

Аннотация

Изучение правил комбинаторики экзонов генов человека во время сплайсинга представляет огромный интерес для диагностики и лечения раковых заболеваний. Определенная часть исследований направлена на разработку надежных моделей предсказания глобальной комбинаторики экзонов при образовании зрелой РНК. Первоочередной задачей является разработка стандартов или единых систематизированных статистических подходов к анализу и интерпретации возможных экзонных последовательностей генов.

Предложен вычислительный подход к предсказанию событий альтернативного сплайсинга в первичных мРНК генов человека, методика которого состоит в снижении размерности пространства экзонных признаков и объединении близко расположенных экзонов в ограниченное число классов, замене экзонных путей генерации РНК на последовательности соответствующих меток классов экзонов, вычислении расстояний между транскриптами РНК по некоторой мере сходства, объединении близкорасположенных объектов РНК в кластеры. Проверка работоспособности разработанных алгоритмов выполнена на примере наборов молекул РНК отобранных негомологичных генов человека и гибридного онкогена RUNX1-RUNX1T1 человека. Точность предсказания разработанного подхода составляет 99.5% для рассмотренных негомологичных пар генов.

Разработан программный пакет и веб-приложение RNAexploreR, интегрирующие реализованные алгоритмы анализа альтернативного сплайсинга РНК-продуктов генов человека. Предложенные алгоритмы и программное обеспечение могут быть использованы для изучения организации и функционирования как аберрантных, так и нормальных генов человека.

Об авторах

Н. Н. Яцков
https://www.bsu.by/main.aspx?guid=104591
Белорусский государственный университет
Беларусь

Яцков Николай Николаевич - кандидат физико-математических наук, доцент, доцент кафедры системного анализа и компьютерного моделирования, факультет радиофизики и компьютерных технологий.

Минск



В. В. Скакун
Белорусский государственный университет
Беларусь

Скакун Виктор Васильевич, кандидат физико-математических наук, доцент, заведующий кафедрой системного анализа и компьютерного моделирования, факультет радиофизики и компьютерных технологий.

Минск



В. В. Гринев
Белорусский государственный университет
Беларусь

Гринев Василий Викторович - кандидат биологических наук, доцент, доцент кафедры генетики, биологический факультет.

Минск



Список литературы

1. Baralle F.E., Giudice J. (2017) Alternative splicing as a regulator of development and tissue identity. Nat. Rev. Mol. Cell Biol. 18, 437–451.

2. Nilsen T.W., Graveley B.R. (2010) Expansion of the eukaryotic proteome by alternative splicing. Nature 463, 457–463.

3. Ramanouskaya T.V., Grinev V.V. (2015) The determinants of alternative RNA splicing in human cells. Mol. Genet. Genomics. 292, 1175–1195.

4. Dominguez D., Freese P., Alexis M.S., et al. (2018) Sequence, structure, and context preferences of human RNA binding proteins. Mol. Cell. 70, 854–867.

5. Ильюшёнок И.Н., Гунько Е.П., Антонович М.Л., и др. (2017) Изучение закономерностей сплайсинга РНК гибридного онкогена RUNX1-RUNX1T1 человека с помощью методов интеллектуального анализа данных и высокопроизводительного секвенирования. Мол. Прикладн. Генет. 23, 92–101.

6. Grinev V.V., Migas A.A., Kirsanava A.D., et al. (2015) Decoding of exon splicing patterns in the human RUNX1-RUNX1T1 fusion gene. Int. J. Biochem. Cell Biol. 68, 48–58.

7. Barash Y., Calarco J.A., Gao W., et al. (2010) Deciphering the splicing code. Nature. 465, 53–59.

8. Ильюшёнок И.Н., Саврицкая А.А., Яцков Н.Н., и др. (2017) Расширяя гипотезу «двух ударов»: молекулярные механизмы RUNX1-RUNX1T1-опосредованного лейкозогенеза. Журн. Белорус. гос. ун-та. Биология. 2, 3–16.

9. Zerbino D.R., Achuthan P., Akanni W., et al. (2018) Ensembl 2018. Nucleic Acids Res. 46, D754–D761.

10. Яцков Н.Н. (2014) Интеллектуальный анализ данных : пособие. Минск : БГУ.

11. Bramer M. (2013) Principles of Data Mining. In: Undergraduate Topics in Computer Science, 2nd ed. Springer-Verlag London.

12. Aggarwal C.C. (2015) Data Mining: The Textbook. Springer International Publishing Switzerland.

13. Hastie T., Tibshirani R., Friedman J. (2009) The Elements of Statistical Learning. Data Mining, Inference, and Prediction. In: Springer series in statistics, 2nd ed. Springer-Verlag New York Inc.

14. Закирова В.Р., Сырокваш Д.А., Гилевский С.В. и др. (2019) Разработка алгоритмов и программных средств классификации кодирующих и некодирующих нуклеотидных последовательностей. Информатика. 16(2), 111–120.

15. Zhang S.W., Jin X.Y., Zhang T. (2017) Gene Prediction in Metagenomic Fragments with Deep Learning. Biomed Res Int. 2017:4740354. doi: 10.1155/2017/4740354.

16. Al-Ajlan A., El Allali A. (2018) Feature selection for gene prediction in metagenomic fragments. BioData Min. 11:9. doi: 10.1186/s13040-018-0170-z.

17. Al-Ajlan A., El Allali A.. (2018) CNN-MGP: Convolutional Neural Networks for Metagenomics Gene Prediction. Interdiscip Sci. doi: 10.1007/s12539-018-0313-4.

18. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. (1989) Прикладная статистика: Классификация и снижение размерности: Справ. изд. под ред. С. А. Айвазяна. М. : Финансы и статистика.

19. Jolliffie I.T. (2002) Principal component analysis. In: Springer series in statistics, 2nd ed. Springer-Verlag New York Inc.

20. Hyvaerinen A., Karhunen J., Erkki O. (2001) Independent component analysis. /. In: Adaptive and learning systems for signal processing, communications, and control. Series Ed. Haykin S. John Wiley&Sons Inc.

21. Лагутин М.Б. (2007) Наглядная математическая статистика: Учебное пособие. М.: БИНОМ. Лаборатория знаний.

22. Saeys Y., Inza I., Larranaga P. (2007) A review of feature selection techniques in bioinformatics. Bioinformatics. 23, 2507–2517.

23. Волков А.В., Яцков Н.Н., Гринев В.В. (2019) Отбор информативных признаков экзонов генов человека. Журн. Белор. гос. ун-та. Математика. Информатика. 1: https://doi.org/10.33581/2520-6508-2019-1-3-14.

24. Мандель И.Д. (1988) Кластерный анализ. М.: Финансы и статистика.

25. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. 2-е изд. СПб:БХВ-Петербург.

26. Леск А. (2009) Введение в биоинформатику. М.: БИНОМ. Лаборатория знаний.

27. Мan der Loo M. (2014). The stringdist package for approximate string matching. The R Journal, 6, 111-122.

28. Uragun B., Rajan R. (2013) The discrimination of interaural level difference sensitivity functions: development of a taxonomic data template for modeling. BMC Neuroscience. 14: 144.

29. Yatskou M. (2001) Сomputer simulation of energy relaxation and -transport in organized porphyrin systems. Ponsen & Looijen Printing Establishment. Wageningen. The Netherlands.

30. Boytsov L. (2011) Indexing methods for approximate dictionary searching: comparative analyses. ACM Journal of experimental algorithmics. 16, 1-88.

31. Navarro G. (2001) A guided tour to approximate string matching. ACM Computing Surveys. 33, 31-88.

32. Cohen W. (2003) A comparison of string metrics for matching names and records. KDD. 3, 73-78.

33. Ильюшёнок И.Н., Мигас А.А., Сухаревский А.Ю., и др. 2019. Вклад различных механизмов генерации альтернативных транскриптов в разнообразие мРНК гибридного онкогена RUNX1-RUNX1T1 человека. Журн. Белорус. гос. ун-та. Биология. 2, 1–14.

34. Яцков Н.Н., Скакун В.В., Гринев В.В. (2018) Программный пакет RNAexploreR для предсказания вариантов альтернативного сплайсинга в первичных мРНК химерного онкогена RUNX1/RUNX1T1 человека. В сборнике материалов международной научной конференции Информационные технологии и системы 2018 (ИТС 2018). Редкол. : Шилин Л.Ю. [и др.]. Минск: БГУИР. Стр. 282-283.

35. R Core Team (2014). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL http://www.R-project.org/.

36. Gentleman R., Carey V.J., Bates D.M. (2004) Bioconductor: Open software development for computational biology and bioinformatics, Genome Biology, 5, R80.

37. RStudio Team (2015). RStudio: Integrated Development for R. RStudio, Inc., Boston, MA URL http://www.rstudio.com/.

38. RNAexplorerR [Electronic recourse] : Application of the computational pipline for analysis and prediction of possible variants of the RNA generation based on the graph model of the organization of a gene. – Mode of access: https://dsa-cm.shinyapps.io/NIR_bio_code_Sh-MolBio/. -- Date of access: 13.06.2019.


Для цитирования:


Яцков Н.Н., Скакун В.В., Гринев В.В. Вычислительный подход и программный пакет RNAexploreR для группировки молекул РНК генов человека по их экзонным признакам. Информатика. 2019;16(4):7-24.

For citation:


Yatskou M.M., Skakun V.V., Grinev V.V. A computational approach and software package RNAexploreR for grouping RNA molecules of human genes by exon features. Informatics. 2019;16(4):7-24. (In Russ.)

Просмотров: 105


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1816-0301 (Print)
ISSN 2617-6963 (Online)