0%
数据分析的架构(3A):
- Data Aggregation
- Data Analysis
- Data Activation
时间序列分析与回归分析的区别:
- 在选择模型前,我们需要确定结果与变量之间的关系。回归分析训练得到的是目标变量y与自变量x(一个或者多个)的相关性,然后通过新的自变量x来预测目标变量y。而时间序列分析得到的是目标变量y与时间的相关性。
- 回归分析擅长的是多变量与目标结果之间的分析,即便是单一变量,也往往与时间无关。而时间序列分析建立在事件变化的基础上,它会分析目标变量的趋势、周期、时期和不稳定因素等。这些趋势和周期都是在时间维度的基础上,是我们要观察的重要特征。
- 基于attention的seq2seq
- 去除定长编码瓶颈, 信息无损从Encoder传到Decoder
- 但是
- 采用GRU, 计算仍然有瓶颈, 并行度不高(计算时存在相互依赖,不管是Encoder还是Decoder,在处理seq时都是从前到后的处理模式,前面的词没有处理完,后面的词不能进行处理,并行度不高)
- 只有Encoder和Decoder之间有attention(Encoder和Decoder之间存在attention, 但是Encoder和Decoder自身不存在attention,这里可以将attention理解为一种无损的信息传递机制,如果Encoder不同时间步之间不存在attention机制,则只能通过GRU或LSTM的隐含状态进行信息传递,但是这种信息传递的机制在序列长度较长时会产生信息损失)
循环神经网络(Recurrent Neural Networks)
为什么不是多层感知机(全连接前馈网络)?
- 多层感知机不擅长或者说不能处理可变长序列
多层感知机只能处理输入数据和输出数据具有固定长度的序列。即使可将每条数据都填充(pad)至最大长度,用以训练多层感知机,但似乎仍然不是一个很好的模型。
- 多层感知机不能进行参数共享
如果在每个时间点都具有相同的参数,不但不能泛化到训练时没有见过的序列长度的数据,也不能在时间上共享不同序列长度和不同位置的统计强度。比如在一句话的两个不同位置出现了两次单词-Harry,多层感知机需要对每个Harry都进行学习。
为什么是循环神经网络?