ncDLRES：一种基于动态LSTM和ResNet的非编码RNA家族预测新方法

现有的计算方法主要分为两类：第一类是通过学习序列或二级结构的特征来预测ncRNAs家族，另一类是通过同源序列之间的比对来预测ncRNAs家族。在第一类中，一些方法通过学习预测的二级结构特征来预测ncRNAs家族。二级结构预测的不准确性可能会导致这些方法的准确性较低。与之不同的是，ncRFP直接学习ncRNA序列的特征来预测ncRNAs家族。虽然ncRFP简化了预测过程，提高了性能，但是由于其输入数据的特征不完整，ncRFP的性能还有提升的空间。在第二类中，同源序列比对方法可以达到目前最高的性能。然而，由于需要对ncRNA序列进行一致性二级结构注释，以及对假结建模的无能为力，限制了该方法的使用。

本文基于Dynamic LSTM (长短期记忆)和ResNet (残差神经网络)提出了一种通过学习序列特征来预测ncRNA家族的新方法" ncDLRES "。

ncDLRES基于Dynamic LSTM提取ncRNA序列的特征，然后通过ResNet进行分类。与同源序列比对方法相比，ncDLRES降低了对数据的要求，扩大了应用范围。通过与第一类方法的比较，ncDLRES的性能有了很大的提高。

本文提出了一种基于动态深度学习模型预测ncRNAs家族的新方法" ncDLRES "，ncRNAs具有三级结构：一级结构、二级结构和三级结构，分别对应ncRNAs序列、二维平面结构和三维空间结构。每个ncRNA的层次结构都包含家族特征，可以作为深度学习模型的输入。由于ncDLRES是根据高通量技术精确获得的一级结构，因此将ncRNA序列作为输入数据，根据其一级结构特征对ncRNA进行分类，可以有效提取最准确的家族特征，提高预测性能。在静态深度学习模型中，需要将输入数据填充或截断成相同的格式，这会增加噪声或损失特征。因此，ncDLRES采用动态深度学习模型，可以将不同长度的ncRNA序列作为输入数据，保留nc RNA序列的完整特征。ncDLRES包括Dynamic LSTM和ResNet。Dynamic LSTM负责将不同长度的ncRNA编码成相同格式的数据，而ResNet倾向于对编码后的数据进行分类。为了提高性能，ncDLRES还采用了注意力机制，将算法注意力集中在重要的片段上。与通过学习二级结构特征的方法相比，ncDLRES简化了预测过程，同时与ncRFP不同的是，该方法保留了输入数据的完整性。与同源序列比对方法相比，ncDLRES只需要一级结构即可识别ncRNAs家族，降低了数据要求，扩大了应用范围。

材料和方法

数据采集处理

本文使用的数据来自于最近的两篇文献，该文献从Rfam数据库中收集。包含microRNAs、5S_rRNA、5.8 S_rRNA、核酶、CD-BOX、HACA-BOX、scaRNA、tRNA、Intron_GpI、Intron_GpII、IRES、leader和核糖开关等13个不同家族的非冗余ncRNA序列。本文采用十折交叉验证来测试ncDLRES的性能。每个家族的ncRNA序列被分为10等份。其中，从每个家庭中随机选取一部分作为测试集，其余部分作为训练集。这样，所有的ncRNA序列都落入10倍的训练集和测试集。为了便于ncRNA序列输入到ncDLRES中，ncDLRES将每个碱基编码成一个向量，ncDLRES采用1×8和1×4的方法对碱基进行编码，选择效果较好的作为最终的编码方式。表2为基与码之间的转换规则。A (腺嘌呤)、U (尿嘧啶)、G (鸟嘌呤)和C (胞嘧啶)是四种常见的碱基编码规则，而' N '代表一些稀有碱基。

在60 %的十折交叉中，1 × 8的正确率高于1 × 4，1 × 8的平均正确率也高于1 × 4。因此，ncDLRES选择1 × 8的编码方式，将每个nc RNA序列编码为L × 8的( L为ncRNA序列长度)矩阵。

方法

在静态深度学习模型中，输入数据应该具有相同的格式。需要对输入数据进行加垫或截断处理，使得输入噪声增大或特征丢失。与静态模型不同，ncDLRES是一种新颖的动态深度学习模型，直接将不同长度的ncRNA序列作为输入，从而进一步保持输入数据的完整性，使得该方法提取的特征更加完整。ncDLRES由动态LSTM 、Attention Mechanism 和ResNet三部分组成。Dynamic LSTM可以记录不同长度ncRNA的上下文信息并对其进行编码，因此选择它来提取完整的ncRNA序列特征并输出相同格式的数据。注意力机制可以使神经网络专注于输入数据的重要特征，因此选择将方法专注于ncRNAs序列的重要片段。ResNet可以避免神经网络中常见的梯度消失和爆炸问题，易于训练，性能优异。因此，选择对其他两部分的输出进行分类。

动态LSTM和注意力机制：循环神经网络是人工神经网络的一种，可以记录上下文信息。它的神经元按照时间顺序连接，可以处理可变长度的输入数据。由于ncRNA序列是上下文敏感的文本序列，因此循环神经网络是处理ncRNA序列的最佳网络。由于存储空间有限，传统的循环神经网络无法有效地记录长距离依赖信息。随着输入数据长度的增加，传统的循环神经网络由于无法有效地记录特征信息而丧失了学习能力。LSTM是一种特殊的循环神经网络，通过特殊的门机制可以有效解决文本长距离依赖的问题。LSTM包含3个门：输入门、遗忘门和输出门。具体来说，输入门决定记录哪些信息来更新LSTM隐藏状态。遗忘门用于找出每一步应该丢弃哪些无用的信息，而输出门基于LSTM状态识别输出信息。此外，当这三个门高效组合时，LSTM可以以较低的成本学习长距离依赖信息。LSTM可以通过以下公式(式中: 7 ~ 11 )来执行：

其中σ为logistic sigmoid函数，i，f，o，c分别为输入门、遗忘门、输出门和细胞向量，且均与隐向量h同维。同时，w表示权重矩阵，b表示偏置向量。式(7)是输入门的计算公式，等式。(8)是遗忘门的计算公式，即公式(9)是细胞状态的计算公式，公式(10)是输出门的计算公式，即公式(11)是隐藏状态的计算公式。

由于ncRNA序列长度的多样性，在采用静态深度学习模型对数据进行处理时，通常采用两种方法对数据进行预处理。一种是将所有序列按照最大长度进行填充，这样不仅增加了方法的运行时间，而且会因为给数据添加噪声而降低准确率；另一种是将所有序列截取成相同长度的序列，这样会造成序列特征的丢失，影响预测精度。因此，静态模型无法以最高效的方式解决ncRNAs家族预测问题。本文采用单层的Dynamic LSTM来解决序列多样性问题。在Dynamic LSTM中，所有的ncRNA序列都以其真实长度输入到模型中，这样可以完整地提取和学习它们的特征，从而提高家族预测的准确性。此外，每个基生成一个包含上下文信息的隐藏状态，即为Dynamic LSTM的输出数据。同一家族的ncRNA会有相似的关键片段。如果该方法更加关注这些重要的片段，则可以更有效地预测ncRNAs家族。模仿人脑注意力模式提出的注意力机制可以高效地完成这一任务。注意力机制并不是固定的神经网络结构，而是通过调整注意力的权重来增加有效信息的权重，弱化无效信息的权重。本文将注意力机制引入到ncDLRES中。通过学习Dynamic LSTM的输出，ncDLRES聚焦于nc RNAs家族片段。图5是动态LSTM和注意力机制的示意图。

图5动态LSTM和注意力机制的示意图。将不同长度的序列编码成矩阵作为Dynamic LSTM的输入。Attention机制将重要片段的隐藏状态以相同的格式整合到输出中

ResNet：ResNet 是深度卷积神经网络的一种特殊形式。深度卷积神经网络取得了一系列突破性进展，尤其是在二维数据的识别和分类方面。研究人员发现，层数对深度卷积神经网络至关重要，可以帮助丰富特征，提高准确率。卷积神经网络随着神经元的增加会逐渐达到饱和，在饱和站的精度最高。因此，浅层卷积神经网络的准确率在达到饱和前会随着深度的增加而增加，达到饱和后会随着深度的增加而降低。当一个神经网络处于饱和状态时，如果想要增加网络的深度并保持最高的精度，新增加的层必须是恒等映射层，或者换句话说，网络需要学习H ( x ) = x。在反向传播中，梯度会随着网络层数的增加而消失或爆炸。因此，很难完成身份映射学习。因此，单纯地提高神经网络的深度已经不能满足性能提升的要求。He在2015年提出了ResNet来解决神经网络退化的问题。ResNet包含很多残差块，由两层卷积神经网络组成。与传统的卷积神经网络不同，ResNet采用捷径连接的方式连接输入层和输出层，使得残差块的映射输出为H ( x ) = F ( x ) + x。在残差块中，输入数据x不仅是输入层的输入，还与输出层的映射相结合，形成残差块的输出。实验证明，新增加的层在ResNet网络达到饱和后需要学习F ( x ) = 0，比传统的卷积层简单得多。

本文根据卷积核的维度设计了一种包含3种残差块的新型ResNet，并将其用于ncDLRES中。对于残差块，采用3 × 3的卷积核，其维度分别为16、32、64。由于ResNet适合处理二维数据，因此首先将Dynamic LSTM和Attention Mechanism的输出转化为矩阵作为ResNet的输入。在ResNet的网络中，与现有的ResNet类似，使用一个卷积层来处理输入数据。之后，网络采用6个残差块，维度分别为16、16、32、32、64、64。经过残差块后，输出数据为64维数据。然后，使用全局平均池化层将输出数据池化成1 × 64个向量。最后，使用全连接层将池化数据分类到ncRNAs家族中。图6是ResNet的原理图。

图6 ResNet示意图。Conv是卷积神经网络层；Relu为激活函数，Avg Pool为全局池化层

学习结果与呈现

在模型学习过程中，将所有的ncRNAs数据处理成十折交叉验证的训练集和测试集，ncDLRES在每折训练集和测试集中训练和测试100次。图1是训练和测试的每个历元的十折交叉验证的平均精度和损失。通过交叉熵损失函数(式( 1 ) )计算损失。从图中可以看出，虽然曲线有波动，这可能是由于较高的学习率造成的，但没有出现过拟合或欠拟合的现象，并且在最后的历元中测试集的准确率和损失都比较稳定，说明该模型能够胜任ncRNAs家族预测的任务。

讨论

研究表明，同一家族的ncRNA具有相似的功能。因此，可以通过预测ncRNAs家族来初步确定它们的功能。在高通量时代，费时费力的生物实验方法已经不能满足科学研究的需求。在这种情况下，需要使用计算方法来预测ncRNAs家族。由于难以获得准确的二级结构，基于二级结构特征的方法性能较低。虽然基于一级结构特征的ncRFP的性能优于基于二级结构特征的方法，但是由于输入特征的丢失，并不能达到最佳的性能。本文提出了一种基于动态深度学习模型预测ncRNA家族的新方法" ncDLRES "。它的输入是ncRNA序列，其特征比基于二级结构的方法更准确，并且ncDLRES使用了动态深度学习模型，避免了ncRFP的输入特征丢失。此外，ncDLRES只需要nc RNA序列即可预测ncRNAs家族，与Internal的相比减少了对数据的需求。因此，它不仅可以应用于具有一致二级结构注释数据的家族，还可以应用于只有序列数据、结构注释数据不准确或有假结数据的家族，扩大了适用范围，避免了无法对假结进行建模的缺陷。