0%

时间序列分析及预测基础

发表于 2020-05-18 Valine：
本文字数： 5.4k 阅读时长 ≈ 5 分钟

数据分析的架构（3A）：

Data Aggregation
Data Analysis
Data Activation

时间序列分析与回归分析的区别:

在选择模型前，我们需要确定结果与变量之间的关系。回归分析训练得到的是目标变量y与自变量x（一个或者多个）的相关性，然后通过新的自变量x来预测目标变量y。而时间序列分析得到的是目标变量y与时间的相关性。
回归分析擅长的是多变量与目标结果之间的分析，即便是单一变量，也往往与时间无关。而时间序列分析建立在事件变化的基础上，它会分析目标变量的趋势、周期、时期和不稳定因素等。这些趋势和周期都是在时间维度的基础上，是我们要观察的重要特征。

阅读全文 »

Transformer

发表于 2020-05-13 Valine：
本文字数： 48k 阅读时长 ≈ 44 分钟

基于attention的seq2seq
- 去除定长编码瓶颈，信息无损从Encoder传到Decoder
但是
- 采用GRU，计算仍然有瓶颈，并行度不高（计算时存在相互依赖，不管是Encoder还是Decoder,在处理seq时都是从前到后的处理模式，前面的词没有处理完，后面的词不能进行处理，并行度不高）
- 只有Encoder和Decoder之间有attention（Encoder和Decoder之间存在attention, 但是Encoder和Decoder自身不存在attention，这里可以将attention理解为一种无损的信息传递机制，如果Encoder不同时间步之间不存在attention机制，则只能通过GRU或LSTM的隐含状态进行信息传递，但是这种信息传递的机制在序列长度较长时会产生信息损失）

阅读全文 »

基于Attention机制的Encoder-Decoder框架实现机器翻译

发表于 2020-05-07 更新于 2020-05-13 Valine：
本文字数： 23k 阅读时长 ≈ 21 分钟

循环神经网络(Recurrent Neural Networks)

为什么不是多层感知机(全连接前馈网络)？

多层感知机不擅长或者说不能处理可变长序列
多层感知机只能处理输入数据和输出数据具有固定长度的序列。即使可将每条数据都填充(pad)至最大长度，用以训练多层感知机，但似乎仍然不是一个很好的模型。
多层感知机不能进行参数共享
如果在每个时间点都具有相同的参数，不但不能泛化到训练时没有见过的序列长度的数据，也不能在时间上共享不同序列长度和不同位置的统计强度。比如在一句话的两个不同位置出现了两次单词-Harry，多层感知机需要对每个Harry都进行学习。

为什么是循环神经网络？

不同时间步内的参数共享
不需要学习每个位置的规则

阅读全文 »