关键词:遗传疾病智能诊断,miRNA识别,流形降维,改进Bagging算法
随着生物信息学和生物统计学的快速发展,基于miRNA(microRNA)序列的遗传疾病智能诊断已成为医疗领域的重要研究方向[1]。miRNA是一类长度约为22个核苷酸的小分子非编码RNA,广泛参与基因表达的调控。通过靶向特定miRNA,可以影响蛋白质的合成及细胞的生物学功能。miRNA的异常表达与多种遗传疾病、肿瘤、心血管疾病及神经系统疾病的发生密切相关,尤其是在骨关节癌的研究中,miRNA的作用日益得到关注。由于miRNA与骨关节癌等疾病的关系密切,其研究对于理解这些疾病的发病机制具有重要意义[2,3]。随着基因组学的迅速发展,基于miRNA序列的遗传疾病早期诊断逐渐成为个性化医学的重要组成部分,通过miRNA表达谱的分析,可以为患者提供更为精准的诊断和治疗方案[4]。
在miRNA基因组识别的研究中,传统的单一模型方法(如支持向量机、决策树等)往往受到高维数据的挑战。尤其是miRNA数据的维度通常远高于样本数量,这使得模型容易出现过拟合现象,导致模型的泛化能力下降[5]。为了应对这一问题,研究者们提出了多种降维方法,以减少特征空间的维度。常用的降维技术包括主成分分析(PCA)和线性判别分析(LDA)等[6]。例如,Taguchi提出了一种基于PCA和T-distributed方法的无监督特征提取方法,他成功地将这些降维方法应用于生物信息学领域,并证明其能有效提高数据处理效率和准确性[7]。然而,这些方法在处理超高维数据时的能力有限,未能充分捕捉数据中的非线性关系。因此,流形学习方法(如Isomap)在处理超高维数据时具有显著优势。Isomap通过保留数据的局部结构并揭示其全局几何特性,能够有效减少维度,同时最大程度地保留数据的原始信息。Yousaf等人提出的扩展Isomap算法,针对高维数据的准确性和效率进行了优化,大大提升了其在处理复杂数据集时的性能[8]。
此外,集成学习方法(如Bagging和Boosting)通过构建多个弱学习器的组合来提高预测准确度。在Bagging框架中,多个决策树模型通过随机抽样和特征重采样来训练,从而减少过拟合现象并提高模型的鲁棒性[9]。然而,随着集成模型中子模型数量的增加,模型冗余问题可能会影响预测精度,尤其是在处理复杂数据时尤为明显。
为了解决上述问题,本文提出了一种基于流形降维和信息量改进Bagging框架的分类算法。首先,针对miRNA序列数据的高维性,本文假设miRNA序列可以在低维空间中进行有效表示。通过Isomap算法,能够在降维的过程中保留数据的结构信息,避免高维数据带来的维度灾难,同时确保原始基因序列的预测信息得以有效保留。其次,针对传统单一模型容易出现过拟合或欠拟合的问题,本文采用了集成学习框架(Bagging)进行预测,提升了模型的稳定性和预测性能。为了减少冗余,提升预测精度,本文引入了一种基于互信息选择的改进Bagging算法[10],通过互信息选择最具信息量的特征来优化子模型的组合。最后,本文在骨关节癌数据集上进行了实证分析,实验结果表明,所提方法在准确性、F1得分和AUC值等多个性能指标上均优于传统基准方法,具有较强的竞争力。这一创新性算法的提出,不仅解决了传统方法在高维数据处理中的问题,也为miRNA基因组识别提供了一种新的思路和技术路径。
首先,Isomap(Isometric Mapping)是一种当前较为热门的流形学习方法,其专门用于高维数据的非线性降维。与传统线性降维方法不同,Isomap能够在低维空间中保留数据点之间的地理结构信息,适用于具有非线性流形结构的数据集。Isomap主要包含以下三个步骤:
给定一个维数据集, Isomap首先计算所有数据点间的欧式距离矩阵:
在此基础上,选取每个点的个最近邻点,构建近邻图(KNN Graph),并用加权无向图表示,其中顶点集合代表数据点,边权重设定为欧式距离(若和是近邻),否则。
由于高维数据可能分布在非线性流形上,直接使用欧式距离可能无法准确描述数据点间的真实距离。因此,Isomap采用 Dijkstra算法 或 Floyd-Warshall算法计算测地距离矩阵,定义如下:
其中,为数据点到的所有可能路径集合,测地距离取所有路径中最短的那一条。
在计算得到测地距离矩阵之后,Isomap使用经典多维尺度分析(MDS)进行降维。具体步骤如下:计算中心化距离矩阵:
选取前个最大特征值对应的特征向量,得到降维后的数据表示:
其次,Bagging(Bootstrap Aggregating)是一种集成学习方法,其核心思想为通过自助采样法(Bootstrap Sampling)生成多个数据子集,训练多个独立的基学习器,并进行投票融合。然而,传统Bagging方法在高维数据上易受冗余特征影响,导致子模型之间的预测高度相似,从而降低了集成效果。而为解决这一问题,本文在Bagging框架中引入互信息(Mutual Information, MI)进行特征筛选,以确保子模型之间的特征多样性,从而提高整体泛化能力。
设原始数据集为,Bagging通过以下步骤生成多个子模型:采用Bootstrap方法,从中随机抽取个样本子集(每个样本集大小为,可重复)。记第个子集为。在每个上训练一个基学习器。本文针对分类问题,考虑使用预测为1的概率作为每一个子模型的输出,计算其与输出标签之间的互信息,以决定该子模型的相对重要性,互信息用于衡量特征与目标变量之间的信息相关性,定义如下:
其中为与的联合概率分布,与分别为边际概率分布。为了优化Bagging框架中的子模型,我们采用互信息方法进行特征筛选,具体步骤如下:计算所有特征与目标变量的互信息。设定阈值,筛选互信息值的特征子集进入第个子模型。训练子模型并融合预测结果。这样,每个子模型在不同特征子集上训练,避免了传统Bagging中子模型过于相似的问题,从而提高集成模型的预测性能。
该热力图揭示了基因组序列特征中存在较强的特征相关性,这表明常规的单一模型可能难以有效地处理这些高维度且相关性强的数据。因此为了更有效地处理这些数据,本文选择结合Isomap流形学习和改进Bagging框架的方法。在此基础上,我们还对比了PCA和t-SNE两种经典的降维方法并分别与随机森林(RandomForest)、决策树(DecisionTree)和XGBoost三种常见分类模型结合,从而构建了七个模型进行比较。这些模型的评估结果由以下指标进行量化,以帮助我们客观评估不同模型的效果:
对于评估指标,准确率表示模型正确预测的样本占总样本的比例。其公式为:
高准确率通常意味着模型的预测结果与实际标签一致,但在类别不平衡的情况下,准确率可能无法全面反映模型性能。
F1得分是精度(Precision)和召回率(Recall)的调和均值,尤其适用于类别不平衡的问题。其公式为:
F1得分在精度和召回率之间找到平衡,能够全面评价模型的分类能力。
AUC值是ROC曲线(接收操作特征曲线)下的面积,衡量模型在不同阈值下区分正负样本的能力。其公式可粗略表示为:
AUC值越接近1,表示模型越能有效区分正负样本;AUC值为0.5时,表示模型没有任何区分能力,相当于随机猜测。
在本实验中,我们控制各个模型基础参数不变,仅调整训练集和测试集的比例划分(3:10,4:10与5:10),以测试不同数据划分比例对各个模型效果的影响情况。实验结果的相关数据表及对比图如表1-3及图2-4所示:
表1 七种模型的实验结果指标数据表(数据划分比例3:10)
表2 七种模型的实验结果指标数据表(数据划分比例4:10)
表3 七种模型的实验结果指标数据表(数据划分比例5:10)
图2 七种模型的实验结果箱型图(数据划分比例3:10)
图3 七种模型的实验结果箱型图(数据划分比例4:10)
图4 七种模型的实验结果箱型图(数据划分比例5:10)
三次实验结果表明,随着训练集比例的增加,所提方法在准确率、F1得分和AUC值等多个评估指标上均表现出稳定且理想的提升。
对于准确率,在不同的数据划分比例下,本文所提方法的准确率均有显著提升。当训练集与测试集比例由3:10提升至4:10后,所提模型的准确率由0.7333提升至0.7446,相对提高了约1.14%。当训练集比例进一步提升至5:10时,准确率较4:10时基本一致。整体来看,随着训练集比例的增加,模型能够更好地学习到数据的潜在特征,从而提升了预测的准确性。
对于F1得分,它的提升也显示出所提方法在处理类别不均衡问题上的优势。随着训练集占比逐渐提升,本文所提模型的F1得分由0.6909提升至0.7028,再到0.7145。F1得分的逐步提升表明,随着训练集样本量的增加,模型在精度和召回率之间找到了更好的平衡,提升了分类能力。尤其是在5:10比例下,F1得分达到了0.7145,相比于3:10的0.6909,提升幅度超过了2%。这一变化表明,所提方法不仅在处理类别不均衡问题上具有较强的优势,还能随着训练集数据量的增加,进一步增强分类性能,证明了模型在提升分类能力方面的有效性。
对于AUC值,它的提升在所有实验中表现最为显著。在3:10的划分比例下,AUC值为0.6912,相较于基准方法的0.52有所提升;在4:10划分比例下,AUC值进一步提升至0.7027,最后在5:10比例下,AUC值提高至0.7184,表明所提方法在区分正负样本的能力上具有明显优势,随着训练集比例的增加,模型的区分能力得到了更好的发挥。
总体而言,实验结果表明,随着训练集比例的增加,所提方法在各项评估指标上均表现出良好的提升。特别是在准确率和AUC值上,所提方法相较于其他基准算法展现了显著优势,尤其在较高比例的训练集数据下,模型能够更好地捕捉数据特征,提升了分类性能。这一结果表明,增加训练集的样本量对提升模型精度和稳定性具有重要作用,为未来的遗传疾病miRNA基因组识别应用提供了有力的支持。
在本实验中,我们对比了本文所提的基于流形降维和信息量改进Bagging框架的分类算法与其他常见降维与分类模型分别在骨关节癌数据集上的表现。并通过对比不同测试集与训练及比例的实验结果可以看出,所提算法在该数据集上均表现出了明显的提升,所提模型的准确率、F1得分和AUC值均有显著的提高,尤其是随着训练集比例的增加,模型性能得到了更好的增强。最终不难发现,所提方法在不同数据集上的稳定表现和显著提升,证明了其在高维数据处理和基因组识别中的广泛应用潜力。
在生物学领域中,miRNA基因组识别在遗传疾病的早期诊断和个性化治疗中起着越来越重要的作用。然而,如何有效处理高维基因数据并提高分类精度,成为了当前的一大挑战。为此,本文提出了一种结合Isomap流形降维和信息量优化的改进Bagging框架的分类算法,旨在解决高维数据中的维度灾难和冗余问题。首先,针对miRNA基因组数据的高维性,我们假设数据可以嵌入低维流形空间,并通过Isomap算法进行降维,有效解决了传统线性降维方法无法处理的非线性问题。其次,针对集成学习框架(Bagging)中常见的模型冗余问题,本文提出的基于互信息选择的改进Bagging算法,通过动态选择信息量最大的特征来优化子模型组合,从而减少冗余,提升整体预测精度。实验结果表明,所提方法在骨关节癌数据集上表现出了显著的性能提升。与传统基准方法相比,所提方法在准确率、F1得分和AUC值等多个评估指标上表现出明显优势。尤其在训练集比例增加时,所提方法能够充分利用更多数据,提高模型的精度和鲁棒性。同时,改进后的Bagging算法有效减少了冗余模型对预测精度的负面影响,显著提升了高维数据的分类能力。
尽管本研究方法在骨关节癌数据集上表现出色,但仍有一些挑战和未来研究方向。首先,互信息准则并非唯一的选择,未来可以探索其他特征选择准则,如距离协方差,以进一步提升模型性能。其次,本文使用的高斯过程分类器计算复杂度较高,未来研究可探索优化计算效率或尝试更适合大规模数据集的模型,如支持向量机(SVM)或神经网络。最后,尽管本研究聚焦于Bagging框架的集成学习,未来也可考虑将深度学习与集成学习结合,以进一步提升模型的学习能力。
[1] Meola N, Gennarino V A, Banfi S. microRNAs and genetic diseases[J]. Pathogenetics, 2009, 2: 1-14.
[2] Rani V, Sengar R S. Biogenesis and mechanisms of microRNA‐mediated gene regulation[J]. Biotechnology and bioengineering, 2022, 119(3): 685-692.
[3] Hill M, Tran N. miRNA interplay: mechanisms and consequences in cancer[J]. Disease models & mechanisms, 2021, 14(4): dmm047662.
[4] Braig Z V. Personalized medicine: From diagnostic to adaptive[J]. biomedical journal, 2022, 45(1): 132-142.
[5] Aliferis C, Simon G. Overfitting, underfitting and general model overconfidence and under-performance pitfalls and best practices in machine learning and AI[J]. Artificial intelligence and machine learning in health care and medical sciences: Best practices and pitfalls, 2024: 477-524.
[6] Reddy G T, Reddy M P K, Lakshmanna K, et al. Analysis of dimensionality reduction techniques on big data[J]. Ieee Access, 2020, 8: 54776-54788.
[7] Taguchi Y H. Unsupervised feature extraction applied to bioinformatics: A PCA based and TD based approach[M]. Springer Nature, 2024.
[8] Yousaf M, Shakoor Khan M S, Ullah S. An Extended-Isomap for high-dimensional data accuracy and efficiency: a comprehensive survey[J]. Multimedia Tools and Applications, 2024: 1-52.
[9] Mienye I D, Sun Y. A survey of ensemble learning: Concepts, algorithms, applications, and prospects[J]. IEEE Access, 2022, 10: 99129-99149.
[10] Gao L, Wu W. Relevance assignation feature selection method based on mutual information for machine learning[J]. Knowledge-Based Systems, 2020, 209: 106439.