Accepted_test
Предсказание структуры белка по аминокислотной последовательности является одной из центральных задач молекулярной биологии и биофизики. Мы применили нейронные сети множественной регрессии для предсказания локальной и вторичной структур белка. Наш метод превзошел все методы, описанные в литературе, для тестового набора негомологичных белков CB513: для вторичной структуры Q3 = 85.99%, Q8 = 79.35%; для локальной структуры Protein Blocks Q16 = 81.01%. Используя обученную предсказательную модель, мы предсказали локальные структуры всей обучающей выборки PISCES30, что позволило создать матрицу замен и оптимизировать процедуру выравнивания методом Smith-Waterman. Также проведён поиск оптимальных структурных алфавитов и длин фрагментов, результатом чего явился алфавит, состоящий из 50 структурных элементов длиной 7 аминокислотных остатков. Для этого алфавита также были выполнены все этапы исследования, позволяющие оптимизировать процедуру выравнивания символьных последовательностей.
Процедура выравнивания предсказанных символьных последовательностей СА по базе символьных последовательностей, полученных из реальных трёхмерных координат из PDB банка не зависит от наличия гомологов в общепринятом смысле этого термина, поскольку наш алгоритм предсказания не использует информацию о наличии гомологии по аминокислотной последовательности, а базируется на физико-химических свойствах аминокислот и статистике встречаемости структурных элементов. Разработанные нами структурные алфавиты лучше, чем все опубликованные, описывают ход белковой цепи при длине структурных элементов от 5 до 11 остатков и позволяют в итоге получить более адекватные начальные приближения для использования методов молекулярной динамики.