Accepted_test
Прогнозирования уровня белков в бактериях имеет большое значение для биотехнологии и оптимизации процессов биосинтеза, в частности для компьютерного дизайна штаммов-продуцентов с повышенной экспрессией целевых наборов белков. Использование современных подходов машинного обучения улучшает понимание количественной динамики белков и ускоряет разработку новых биотехнологических приложений. И существующие современные методы глубокого обучения, такие как нейросетевые модели обработки естественного языка с архитектурой Transformer, обученные на больших массивах данных, позволяют анализировать биологические последовательности без «ручного» извлечения признаков последовательности, что значительно повышает точность предсказаний моделей машинного обучения. В 2023 году мы разработали метод предсказаний количества белка в Saccharomyces cerevisiae S288C, названный yeastProtPred, включающий в себя трансфмормеры для получения векторных представлений последовательностей гена, а также последовательностей кодируемого белка.