卷积神经网络作为一种基本的特征提取方法,在处理序列问题时存在一些信息丢失的问题,而时序卷积网络可以弥补这一问题。然而,普通的时间卷积网络由于其单向分析,不能很好地处理蛋白质二级结构的预测。因此,我们提出了一个集成的深度学习模型,称为卷积-双向时间卷积网络。基于卷积神经网络和双向时间卷积网络的3态和8态蛋白质二级结构预测。该模型结合了卷积神经网络和双向时间卷积网络的优点,既能捕获氨基酸序列的局部相关性,又能分析氨基酸序列的远距离相互作用。因此,该模型可以有效提高蛋白质二级结构预测的准确性。实验结果表明,将卷积神经网络与双向时间卷积网络相结合用于蛋白质二级结构预测是有效的。
为了分析蛋白质序列中氨基酸之间的局部和全局相互作用,我们首次提出了基于CNN和双向TCN的人工神经网络C-BITCN,并将其应用于蛋白质二级结构预测。从实验结果可以看出,与CNN和双向TCN相比,C-BITCN的准确率明显提高,说明C-BITCN确实是有效的。结果表明,C-BITCN在预测pss方面优于其他方法。
在我们的实验中,我们使用去除重复蛋白后的culpdb作为训练集,CASP10、CASP11、CASP12、CASP13、CASP14和CB513作为测试集,取得了比其他方法更好的PSSP结果。虽然利用CNN和LSTM结合预测蛋白质二级结构的方法很多,但利用CNN和双向TCN预测蛋白质二级结构的方法很少。C-BITCN可以从CNN中提取局部特征,分析氨基酸序列之间的相互作用和联系,从而取得较好的效果。
通过双向TCN确定氨基酸类型,预测位置两侧的氨基酸,并分析大长度蛋白质序列中氨基酸的相互作用。对二级结构预测影响较大的两个因素是提取氨基酸链的局部特征和观察蛋白质序列中氨基酸的相互作用。CBITCN同时具备这两个特点;因此,它比其他方法取得了更好的效果。
由于该模型采用最大池化,氨基酸突变或信息误差会影响预测结果。我们将继续优化模型,并在未来在更多的数据集上进行测试。