Программный комплекс для имитационного моделирования сайтов однонуклеотидного генетического полиморфизма
https://doi.org/10.37661/1816-0301-2025-22-2-81-94
Аннотация
Цели. В настоящее время высокопроизводительные методы секвенирования широко используются в фундаментальных и прикладных исследованиях различных заболеваний человека. Секвенирование функционально значимых регионов генома человека позволяет одновременно идентифицировать множество сайтов генетического полиморфизма, имеющих диагностическую и (или) прогностическую значимость в отношении генетических заболеваний человека. В числе приоритетных целей в этой области стоит разработка эффективных программных инструментов обработки геномных данных и идентификации сайтов однонуклеотидного полиморфизма с использованием методов компьютерного моделирования и анализа больших данных.
Методы. Разработан программный комплекс для имитационного моделирования и идентификации сайтов однонуклеотидного полиморфизма с использованием методов машинного обучения. Реализована методика подхода имитационного моделирования и анализа сайтов однонуклеотидного полиморфизма в молекулах ДНК на основе бета-распределения или нормального закона распределения, параметры которых определяются по имеющимся экспериментальным данным, и методов интеллектуального анализа, обученных на смоделированных данных и применяемых для точной идентификации сайтов однонуклеотидного полиморфизма. Комплекс включает R-пакет, веб-приложение и вспомогательные программные средства для обработки экспериментальных данных геномного секвенирования.
Результаты. Проверка работоспособности представленного программного комплекса проведена на наборах смоделированных и экспериментальных данных геномного секвенирования клеток человека. Выполнен сравнительный анализ наиболее эффективных алгоритмов идентификации сайтов однонуклеотидных полиморфизмов. Наилучшие результаты получены для моделей машинного обучения.
Заключение. Применение программного комплекса повышает точность определения сайтов генетического полиморфизма в ходе анализа больших данных геномного секвенирования. Комплекс может использоваться для моделирования синтетических данных по экспериментальным данным или самостоятельно с целью всестороннего тестирования и выбора наилучших алгоритмов идентификации однонуклеотидных полиморфизмов, а также для генеративного моделирования данных, используемых при обучении алгоритмов идентификации на основе методов интеллектуального анализа
Ключевые слова
Об авторах
Н. Н. ЯцковБеларусь
Яцков Николай Николаевич, кандидат физико-математических наук, доцент, доцент кафедры системного анализа и компьютерного моделирования, факультет радиофизики и компьютерных технологий
пр. Независимости, 4, Минск, 220030
Д. Д. Сарнацкий
Беларусь
Сарнацкий Денис Дмитриевич, студент кафедры системного анализа и компьютерного моделирования, факультет радиофизики и компьютерных технологий
пр. Независимости, 4, Минск, 220030
В. В. Скакун
Беларусь
Скакун Виктор Васильевич, кандидат физико-математических наук, доцент, заведующий кафедрой системного анализа и компьютерного моделирования, факультет радиофизики и компьютерных технологий
пр. Независимости, 4, Минск, 220030
В. В. Гринев
Беларусь
Гринев Василий Викторович, кандидат биологических наук, доцент, доцент кафедры генетики, биологический факультет
пр. Независимости, 4, Минск, 220030
Список литературы
1. Sung, W. K. Algorithms for Next Generation Sequencing / W. K. Sung. – 1st ed. – N. Y. : Chapman & Hall / CRC, 2017. – 364 p.
2. Kappelmann-Fenzl, M. Next Generation Sequencing and Data Analysis / ed. M. Kappelmann-Fenzl. – 1st ed. – Cham : Springer, 2021. – 218 p.
3. Optimal design of low-density SNP arrays for genomic prediction: algorithm and applications / X. L. Wu, J. Xu, G. Feng [et al.] // PLoS ONE. – Sept. 2016. – Vol. 11, no 9. – P. e0161719. – DOI: 10.1371/journal.pone.0161719.
4. Machine learning as an effective method for identifying true single nucleotide polymorphisms in polyploid plants / W. Korani, J. P. Clevenger, Y. Chu, P. Ozias-Akins // Plant Genome. – Mar. 2019. – Vol. 12, iss. 1. – P. 180023. – DOI: 10.3835/plantgenome2018.05.0023.
5. Masoudi-Nejad, A. Next Generation Sequencing and Sequence Assembly. Methodologies and Algorithms / A. Masoudi-Nejad, Z. Narimani, N. Hosseinkhan. – 1st ed. – N. Y. : Springer, 2013. – 86 p.
6. Su, Z. HAPGEN2: simulations of multiple disease SNPs / Z. Su, J. Marchini, P. Donnelly // Bioinformatics. – 2011. – Vol. 27, iss. 16. – P. 2304–2305.
7. Oh, J. H. SITDEM: a simulation tool for disease/endpoint models of association studies based on single nucleotide polymorphism genotypes / J. H. Oh, J. O. Deasy // Computers in Biology and Medicine. – 2014. – Vol. 45. – P. 136–142.
8. A comparison of gene region simulation methods / A. E. Hendricks, J. Dupuis, M. Gupta [et al.] // PLoS ONE. – 2012. – Vol. 7, no 7. – P. e40925. – DOI: 10.1371/journal.pone.0040925.
9. Genetic Simulation Resources: a website for the registration and discovery of genetic data simulators / B. Peng, H. S. Chen, L. E. Mechanic [et al.] // Bioinformatics. – 2013. – Vol. 29, iss. 8. – P. 1101–1102.
10. Genetic data simulators and their applications: an overview / B. Peng, H. S. Chen, L. E. Mechanic [et al.] // Genetic Epidemiology. – 2015. – Vol. 39, iss. 1. – P. 2–10.
11. Tahmasbi, R. GeneEvolve: a fast and memory efficient forward-time simulator of realistic wholegenome sequence and SNP data / R. Tahmasbi, M. C. Keller // Bioinformatics. – 2017. – Vol. 33, iss. 2. – P. 294–296.
12. Posada, D. Simulating haplotype blocks in the human genome / D. Posada, C. Wiuf // Bioinformatics. – 2003. – Vol. 19, iss. 2. – P. 289–290.
13. DHOEM: a statistical simulation software for simulating new markers in real SNP marker data / L. Jacquin, T. V. Cao, C. Grenier, N. Ahmadi // BMC Bioinformatics. – Dec. 2015. – Vol. 16. – P. 404. – DOI: 10.1186/s12859-015-0830-7.
14. Meyer, H. V. PhenotypeSimulator: A comprehensive framework for simulating multi-trait, multi-locus genotype to phenotype relationships / H. V. Meyer, E. Birney // Bioinformatics. – 2018. – Vol. 34, iss. 17. – P. 2951–2956.
15. sim1000G: a user-friendly genetic variant simulator in R for unrelated individuals and family-based designs / A. Dimitromanolakis, J. Xu, A. Krol, L. Briollais // BMC Bioinformatics. – Jan. 2019. – Vol. 20, no 1. – P. 26. – DOI: 10.1186/s12859-019-2611-1.
16. Яцков, Н. Н. Генеративное имитационное моделирование сложных биофизических систем / Н. Н. Яц- ков, В. В. Апанасович, В. Н. Яцков // Компьютерные технологии и анализ данных (CTDA’2024) : матери- алы IV Междунар. науч.-практ. конф., Минск, 25–26 апр. 2024 г. – Минск : БГУ, 2024. – С. 211–214.
17. Simulation modelling for machine learning identification of single nucleotide polymorphisms in human genomes / M. M. Yatskou, E. V. Smolyakova, V. V. Skakun, V. V. Grinev // Pattern Recognition and Information Processing (PRIP’2023) : Proc. of the 16th Intern. Conf., Minsk, 17–19 Oct. 2023. – Minsk : BSU, 2023. – P. 49–53.
18. Яцков, Н. Н. Вычислительный подход и программный пакет RNAexploreR для группировки моле- кул РНК генов человека по их экзонным признакам / Н. Н. Яцков, В. В. Скакун, В. В. Гринев // Информа- тика. – 2019. – Т. 16, № 4. – С. 7–24.
19. Gentleman, R. Bioconductor: Open software development for computational biology and bioinformatics / R. Gentleman, V. J. Carey, D. M. Bates // Genome Biology. – 2004. – Vol. 5, no. 10, art. R80. – URL: https://genomebiology.biomedcentral.com/articles/10.1186/gb-2004-5-10-r80 (date of access: 10.04.2025). – DOI: 10.1186/GB-2004-5-10-R80.
20. Программный пакет SNPSimulatoR для моделирования сайтов однонуклеотидного генетического полиморфизма / Н. Н. Яцков, Е. В. Смолякова, В. В. Скакун, В. В. Гринев // Квантовая электроника : ма- териалы XIV Междунар. науч.-техн. конф., Минск, 21–23 нояб. 2023 г. – Минск : БГУ, 2023. – С. 510–515.
21. An open resource for accurately benchmarking small variant and reference calls / J. M. Zook, J. McDaniel, N. D. Olson [et al.] // Nature Biotechnology. – 2019. – Vol. 37, no. 5. – P. 561–566
22. Идентификация сайтов однонуклеотидного генетического полиморфизма с использованием методов машинного обучения / Н. Н. Яцков, Е. В. Смолякова, К. И. Грудовик [и др.] // Квантовая электроника : материалы XIV Междунар. науч.-техн. конф., Минск, 21–23 нояб. 2023 г. – Минск : БГУ, 2023. – С. 504–509.
23. Identification of single nucleotide genetic polymorphism sites using machine learning methods / M. M. Yatskou, E. V. Smolyakova, V. V. Skakun, V. V. Grinev // Advances in Transdisciplinary Engineering. – 2023. – Vol. 42. – P. 1031–1037.
24. Yatskou, M. M. Simulation modelling of single nucleotide genetic polymorphisms / M. M. Yatskou, V. V. Apanasovich, V. V. Grinev // Journal of the Belarusian State University. Mathematics and Informatics. – 2024. – No. 2. – P. 104–112.
25. Яцков, Н. Н. Вычислительная платформа FluorSimStudio для обработки кинетических кривых за- тухания флуоресценции с использованием алгоритмов имитационного моделирования и интеллектуаль- ного анализа данных / Н. Н. Яцков, В. В. Апанасович // Журнал прикладной спектроскопии. – 2021. – Т. 88, № 3. – C. 452–461.
26. Сарнацкий, Д. Д. Имитационная модель генерации сайтов однонуклеотидного полиморфизма в молекулах ДНК человека / Д. Д. Сарнацкий, Н. Н. Яцков, В. В. Гринева // Компьютерные технологии и анализ данных (CTDA’2024) : материалы IV Междунар. науч.-практ. конф., Минск, 25–26 апр. 2024 г. – Минск : БГУ, 2024. – С. 265–268.
27. Сарнацкий, Д. Д. Исследование информативности признаков нуклеотидных сайтов при определе- нии генетических полиморфизмов с использованием методов машинного обучения / Д. Д. Сарнацкий, Н. Н. Яцков, В. В. Гринев // Информационные технологии и системы (ИТС 2024) : материалы Междунар. науч. конф., Минск, 20 нояб. 2024 г. – Минск : БГУИР, 2024. – С. 69–70.
28. Яцков, Н. Н. Нейросетевое имитационное моделирование при анализе экспериментальных данных флуоресцентной спектроскопии / Н. Н. Яцков, В. В. Апанасович // Компьютерные технологии и анализ данных (CTDA’2024) : материалы IV Междунар. науч.-практ. конф., Минск, 25–26 апр. 2024 г. – Минск : БГУ, 2024. – С. 215–218.
Дополнительные файлы
Рецензия
Для цитирования:
Яцков Н.Н., Сарнацкий Д.Д., Скакун В.В., Гринев В.В. Программный комплекс для имитационного моделирования сайтов однонуклеотидного генетического полиморфизма. Информатика. 2025;22(2):81-94. https://doi.org/10.37661/1816-0301-2025-22-2-81-94
For citation:
Yatskou M.M., Sarnatski D.D., Skakun V.V., Grinev V.V. Software complex for simulation modelling of single nucleotide genetic polymorphism sites. Informatics. 2025;22(2):81-94. (In Russ.) https://doi.org/10.37661/1816-0301-2025-22-2-81-94


















