Preview

Информатика

Расширенный поиск

Разработка алгоритмов и программных средств классификации кодирующих и некодирующих нуклеотидных последовательностей

Аннотация

Проведено исследование кодирующих и некодирующих нуклеотидных последовательностей референсного генома человека. Разработаны семь моделей векторизации нуклеотидных последовательностей на основе частот моно-, би- и триграммов нуклеотидов, параметров модели частот и позиций сочетаний нуклеотидов (category-position-frequency model), длин последовательностей, корреляционных факторов нуклеотидов, статистических признаков кодирующих и некодирующих участков молекул ДНК. Определены наиболее информативные признаки моделей векторизации c использованием алгоритмов автоматического выбора признаков и классификации на основе методов случайного леса и опорных векторов. Установлено различие кодирующих и некодирующих фрагментов нуклеотидных последовательностей. Ошибка классификации последовательностей с использованием метода случайного леса на наборе из 23 наиболее информативных признаков составила 2,93 %.

Для цитирования:


Закирова В.Р., Сырокваш Д.А., Гилевский С.В., Назаров П.В., Яцков Н.Н. Разработка алгоритмов и программных средств классификации кодирующих и некодирующих нуклеотидных последовательностей. Информатика. 2019;16(2):109-118.

For citation:


Zakirava V.R., Syrakvash D.A., Hileuski S.V., Nazarov P.V., Yatskou M.M. Development of algorithms and software for classification of nucleotide sequences. Informatics. 2019;16(2):109-118. (In Russ.)

Просмотров: 829


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1816-0301 (Print)
ISSN 2617-6963 (Online)