Preview

Информатика

Расширенный поиск

Разработка алгоритмов и программных средств классификации кодирующих и некодирующих нуклеотидных последовательностей

Аннотация

Проведено исследование кодирующих и некодирующих нуклеотидных последовательностей референсного генома человека. Разработаны семь моделей векторизации нуклеотидных последовательностей на основе частот моно-, би- и триграммов нуклеотидов, параметров модели частот и позиций сочетаний нуклеотидов (category-position-frequency model), длин последовательностей, корреляционных факторов нуклеотидов, статистических признаков кодирующих и некодирующих участков молекул ДНК. Определены наиболее информативные признаки моделей векторизации c использованием алгоритмов автоматического выбора признаков и классификации на основе методов случайного леса и опорных векторов. Установлено различие кодирующих и некодирующих фрагментов нуклеотидных последовательностей. Ошибка классификации последовательностей с использованием метода случайного леса на наборе из 23 наиболее информативных признаков составила 2,93 %.

Об авторах

В. Р. Закирова
Белорусский государственный университет
Беларусь

Закирова Вероника Рашидовна, магистрант, кафедра системного анализа и компьютерного моделирования, факультет радиофизики и компьютерных технологий



Д. А. Сырокваш
Белорусский государственный университет
Беларусь
Сырокваш Дмитрий Алексеевич, магистр, кафедра системного анализа и компьютерного моделирования, факультет радиофизики и компьютерных технологий


С. В. Гилевский
Белорусский государственный университет
Беларусь
Гилевский Станислав Викентьевич, доцент, кандидат технических наук, кафедра системного анализа и компьютерного моделирования, факультет радиофизики и компьютерных технологий


П. В. Назаров
Люксембургский институт здоровья
Люксембург

Назаров Петр Владимирович, кандидат физикоматематических наук, отдел исследования протеома и генома

отделение онкологии



Н. Н. Яцков
Белорусский государственный университет
Беларусь
Яцков Николай Николаевич, доцент, кандидат физикоматематических наук, кафедра системного анализа и компьютерного моделирования, факультет радиофизики и компьютерных технологий


Список литературы

1. Edwards, D. J. Beginner's guide to comparative bacterial genome analysis using next-generation sequence data / D. J. Edwards, K. E. Holt // Microbial Informatics and Experimentation. – 2013 – Vol. 3:2. – Р. 1–9.

2. Bao, J. An improved alignment-free model for DNA sequence similarity metric / J. Bao, R. Yuan, Z. Bao // BMC Bioinformatics. – 2014. – Vol. 15:321. – Р. 1–15.

3. Li, C. Relative entropy of DNA and its application / C. Li, J. Wang // Physica A. – 2005. – Vol. 347. – P. 465–471.

4. Numerical characteristics of word frequencies and their application to dissimilarity measure for sequence comparison / Q. Dai [et al.] // J. of Theoretical Biology. – 2011. – Vol. 276. – P. 174–180.

5. Liu, L. Clustering DNA sequences by feature vectors / L. Liu, Y. K. Ho, S. Yau // Mol Phylogenet Evol. – 2006. – Vol. 41. – P. 64–69.

6. Wang, J. Wse, a new sequence distance measure based on word frequencies / J. Wang, X. Zheng // Mathematical Biosciences. – 2008. – Vol. 215. – P. 78–83.

7. Zhao, B. A new distribution vector and its application in genome clustering / B. Zhao, R. L. He, S. Т. Yau // Mol Phylogenet Evol. – 2011. – Vol. 59. – P. 438–443.

8. Application of high-dimensional feature selection: evaluation for genomic prediction in man / M. L. Bermingham [et al.] // Scientific Reports. – 2015. – Vol. 5:10312. – P. 1–12.

9. GFF/GTF File Format – Definition and Supported Options [Electronic resource]. – 2014. – Modе of access: www.ensembl.org/info/website/upload/gff.html. – Date of access: 16.10.2014.

10. Comparative analyses between retained introns and constitutively spliced introns in arabidopsos thaliana using random forest and support vector machine / R. Mao [et al.] // PLoS One. – 2014. – Vol. 9, no. 8. – P. 1–12.

11. Разработка алгоритмов и автоматизированных программных средств для классификации кодирующих и некодирующих нуклеотидных последовательностей / Д. А. Сырокваш [и др.] // Междунар. конгресс по информатике: информационные системы и технологии : материалы конгресса, Минск, 24–27 окт. 2016 г. ; редкол.: С. В. Абламейко [и др.]. – Минск : БГУ, 2016. – С. 189–193.

12. Do we need hundreds of classifiers to solve real world classification problems? / M. Fernández-Delgado [et al.] // J. of Machine Learning Research. – 2014. – Vol. 15. – P. 3133–3181.

13. Liaw, A. Breiman and Custler’s Random Forests for Classification and Regression [Electronic resource] / A. Liaw, M. Wiener. – 2016. – Mode of access: http://www.stat.berkley.edu/~breiman/RandomForest/ cc_home.htm#workings. – Date of access: 11.02.2016.

14. Breiman, L. Random forest / L. Breiman // Machine Learning. – 2001. – Vol. 45(1). – P. 5–32.

15. Вапник, В. Н. Восстановление зависимостей по эмпирическим данным / В. Н. Вапник. – М. : Наука, 1979. – 448 с.

16. Вьюгин, В. В. Математические основы машинного обучения и прогнозирования / В. В. Вьюгин. – М. : МЦНМО, 2014. – 304 с.

17. Мастицкий, С. Э. Статистический анализ и визуализация данных с помощью R [Электронный ресурс] / С. Э. Мастицкий, В. К. Шитиков. – 2014. – Режим доступа: http://r-analytics.blogspot/.com. – Дата доступа: 13.03.2015.

18. Advancing Feature Selection Research – ASU Feature Selection Repository [Electronic resource] / Z. Zhao [et al.]. – 2010. – Mode of access: https://www.researchgate.net/publication/305083748_Advancing_ feature_selection_research. – Date of access: 10.04.2019.

19. Kuhn, M. The Caret Package [Electronic resource] / M. Kuhn. – 2017. – Mode of access: https://topepo.github.io/caret. – Date of access: 11.04.2017.


Рецензия

Для цитирования:


Закирова В.Р., Сырокваш Д.А., Гилевский С.В., Назаров П.В., Яцков Н.Н. Разработка алгоритмов и программных средств классификации кодирующих и некодирующих нуклеотидных последовательностей. Информатика. 2019;16(2):109-118.

For citation:


Zakirava V.R., Syrakvash D.A., Hileuski S.V., Nazarov P.V., Yatskou M.M. Development of algorithms and software for classification of nucleotide sequences. Informatics. 2019;16(2):109-118. (In Russ.)

Просмотров: 705


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1816-0301 (Print)
ISSN 2617-6963 (Online)