推吧推吧122平台账号注册可以用一个账号同时注册个人用户和商家用户吗?

1)使用云计算有哪些优点

使用雲计算有下列优点:

a)备份数据和存储数据

f)具有成本效益,并节省时间

2)可否列举哪些122平台账号注册用于大规模云计算

用于大规模云計算的122平台账号注册包括:

3)可否解释用于云计算部署的不同模式?

不同的云计算部署模式包括:

4)云计算与移动计算有何区别

移动计算使用与云计算同样的概念。借助互联网而不是借助单个设备云计算因数据而变得活跃。它为用户提供了需要按需获取的数据在移动計算中,应用程序在远程服务器上运行为用户提供了访问所存储数据的权限。

公用计算让用户可以只需要为使用的资源付费它是由决萣从云端部署哪种类型的服务的企业组织管理的一种插件。

大多数企业组织青睐混合策略

6)由于数据在云端传输,你如何确保数据安全

数据从一个地方传输到另一地方的过程中想确保数据安全,就要确保针对你发送的数据所使用的加密密钥没有泄露

7)云在安全方面的措施有哪些?

a)身份管理:授权应用程序服务

b)访问控制:将权限授予用户,那样用户可以控制进入到云环境的另一个用户的访问

c)驗证和授权:只允许通过授权和验证的用户访问数据和应用程序。

8)可否列出定义云架构的不同层

8)云架构使用的不同层包括:

9)云计算系统集成商的角色是什么?

在云计算中系统集成商负责为用来设计云122平台账号注册的复杂过程制定策略。集成商需要构建更准确的混匼云和私有云网络因为集成商拥有数据中心构建方面的全部知识。

“EUCALYPTUS”的全称是将你的程序连接到实用系统的弹性公用计算架构

11)可否解释“EUCALYPTUS”在云计算中有何用处?

Eucalyptus是云计算中的一种开源软件基础设施它用来将集群实施到云计算122平台账号注册上。它用来构建公共云、混合云和私有云它能够将你自己的数据中心打造成私有云,并让你可以将其功能应用于其他许多企业组织

12)虚拟化122平台账号注册在實施云时有何要求?

虚拟化122平台账号注册在实施云时的要求包括:

c)虚拟化122平台账号注册有助于让后端级别概念和用户级别概念彼此不同

13)在使用云计算122平台账号注册前,用户需要考虑哪些必要的方面

f)云计算的数据完整性

14)可否列举几个开源云计算122平台账号注册数据庫?

开源云计算122平台账号注册数据库有:

15) 落实了哪些安全法规来保护云端数据的安全

为保护云端数据安全而落实的安全法规包括:

a)處理:控制在应用程序中正确、完整处理的数据。

b)文件:它管理和控制任何文件中处理的数据

c)输出调和:它控制输入和输出之间需偠调和的数据。

d)输入验证:控制输入数据

e)安全和备份:它提供安全和备份,还控制安全泄密日志

16)可否列举几个大型云提供商的數据库名称?

17)可否解释云与传统数据中心之间的区别

a)由于供暖和硬件/软件问题,传统数据中心的成本比较高

b)需求增加时,云可鉯扩增资源大部分开支花在了数据中心的维护上,而云计算不是这样

18)可否解释软件即服务(SaaS)的不同模式?

a)简单的多租户模式:茬该模式中每个用户有独立的资源,与其他用户分开来这是一种高效的模式。

b)细粒度的多租户模式:在这种模式中资源由许多租戶共享,但是功能仍然一样

19)API在云服务中有何用途?

API(应用编程接口)在云122平台账号注册中非常有用

a)不需要编写功能完备的程序

b)提供了在一个或多个应用程序之间进行联系的指令。

c)易于构建应用程序并将云服务与其他系统联系起来。

20)为云计算部署了哪些不同嘚数据中心

云计算包括不同的数据中心,比如

21)云计算中有哪些不同的层

a)SaaS:软件即服务,它让用户可以直接访问云应用程序不必茬系统上安装任何东西。

b)IaaS:基础设施即服务它从硬件(比如内存和处理器速度等)等层面提供了基础设施。

c)PaaS:122平台账号注册即服务它为开发人员提供了云应用程序122平台账号注册。

22)122平台账号注册即服务有多重要

122平台账号注册即服务(PAAS)是云计算中一个很重要的层。它为提供商提供了应用程序122平台账号注册它负责提供基础设施层的全面虚拟化,让它运行起来如同单一的服务器

云服务用来通过互聯网,使用网络中的服务器来构建云应用程序它提供了这种便利:不必将云应用程序安装到计算机上,即可直接使用它还减少了维护囷支持使用云服务开发的应用程序的工作。

24)可否列出云计算领域的三种基本云

25)就基础设施即服务而言,它提供了什么资源

IAAS(基础設施即服务)提供了用来构建云的虚拟资源和物理资源。它负责处理部署和维护这一层提供的服务带来的复杂性在这里,基础设施是服務器、存储系统及其他硬件系统

26)云架构有什么样的业务好处?

云架构具有的好处包括:

27)云架构有别于传统架构的特点有哪些

让云架构有别于传统架构的特点包括:

a)按照需求,云架构满足硬件要求

b)云架构能够按需增减资源。

c)云架构能够管理和处理动态工作负載顺畅无阻。

28)可否列举云计算中弹性与可扩展性的区别

可扩展性是云计算的一个特点;借助可扩展性,只要相应增加资源容量就鈳以处理增加的工作负载。作为云计算的另一个特点弹性强调了启用和停用庞大的资源容量这一概念。

29)可否列举由Window Azure操作系统提供的服務

Window Azure提供了三种核心服务,包括:

30)在云架构中必需的不同部分有哪些?

31)在云架构中经历的不同阶段有哪些?

32)可否列出云计算的基本特点

b)自助式配置和自动取消配置

d)自助计费的使用模式

33)在云架构中,基本的构建模块有哪些

34)可否描述云架构以哪些方式来提供自动化和性能透明度?

为了提供性能透明度和自动化云架构使用许多工具。它可以管理云架构和监测报告它还可以共享使用云架構的应用程序。自动化是云架构的关键部分有助于改善质量级别。

35)可否解释一下高性能云在云计算中的角色

高性能云在立即传输最夶数量的数据方面很有用。从事高性能计算研究的专业人员经常使用高性能云

36)可否解释混合云和社区云?

混合云:混合云包括多家服務提供商它结合了公共云和私有云的功能。公司同时需要私有云和公共云时就会使用混合云。

社区云:这种模式的成本相当高;多家企业组织有着共同的目标和需求又准备共享云服务的优点时,就会使用社区云

37)在云中,优化策略有哪些

为了克服维护成本,并且優化资源用到云端三个数据中心这个概念:提供恢复和备份机制,万一出现灾难或系统故障可确保所有数据安全无恙。

38)亚马逊SQS是什麼东东

为了在不同的连接件之间联系,就要使用亚马逊SQS消息;它在亚马逊的不同组件中充当“联络者”

39)如何用于亚马逊网络服务?

為了让系统更高效地应对流量或负载突增的情况提供商使用缓冲器。缓冲器可同步不同的组件组件始终以一种不平衡的方式接收和处悝请求。不同组件之间的平衡由缓冲器来负责管理好让它们以同样的速度来工作,从而提供更快的服务

40)可否描述云计算中的虚拟机管理程序及其类型?

虚拟机管理程序是虚拟机监测工具为虚拟机管理资源。虚拟机管理程序主要有两种类型

类型1:访客虚拟机直接在主机硬件上运行,比如Xen和VMWare ESXI

类型2:访客虚拟机通过在硬件上运行,比如KVM和Oracle

云计算是如何提供按需模式的功能的?

  云计算网络、互联网的┅种比喻说法它提供了以互联网按需模式访问共享的虚拟化IT资源的方式,所有的资源以资源池的方式存在提供配置化的访问方式,资源类型包括网络、服务器、存储、应用和服务

  可扩展性和伸缩性的区别是什么?

  可扩展性是云计算的特性之一,它通过增加资源嫆量的方式来满足增长的系统压力如果系统压力超出一定范围,允许系统架构以按需模式扩展系统容量 和系统性能可扩展性可以通过軟件框架来实现:动态加载的插件、顶端有抽象接口的认真设计的类层次结构、有用的回调函数构造以及功能很有逻辑并且可塑性很 强的玳码结构。

  高可伸缩性代表一种弹性在系统扩展成长过程中,软件能够保证旺盛的生命力通过很少的改动甚至只是硬件设备的添置,就能实现整个系统处理能力的线性增长实现高吞吐量和低延迟高性能。

  云计算的三层架构分别是什么?

  按照云计算122平台账号紸册提供的服务种类划分出了云计算122平台账号注册的三层架构,即:

  Platform as a Service (PaaS):提供类似于操作系统层次的服务与管理 比如 Google GAE,你可以把自巳写 Java 应用 ( 或者是 Python) 丢在 Google 的 GAE 里运行GAE 就像一个”云”操作系统,对你而言不用关心你的程序在那台机器上运行。

计划完成的126篇论文第二十三篇UT嘚Alex Graves等领导研究通过LSTM来生成不同风格的文本和手写体handwriting。


本文通过对一个数据点的预测说明了LSTM怎样生成具有长期结构的复杂序列。该方法适鼡于文本(数据是离散的)和在线手写(数据是实值的)然后,它被扩展到手写合成通过允许网络对文本序列的预测设定条件。由此产生的系統能够生成多种风格的高度逼真的草书手写体

递归神经网络(RNNs)是一类丰富的动态模型,已被用于生成各种领域的序列如音乐[6,4]、文本[30]和运動捕捉数据[29]。RNNs可以通过一步一步地处理真实数据序列并预测接下来会发生什么来训练序列生成假设预测是概率性的,通过对网络输出分咘进行迭代采样然后将样本作为下一步的输入,从训练好的网络中生成新的序列换句话说,让网络把它的发明当作是真实的就像一個人在做梦一样。虽然网络本身是确定性的但采样注入的随机性导致了序列上的分布。这种分布是有条件的因为网络的内部状态(因此其预测分布)依赖于以前的输入。

RNNs是模糊的因为它们不使用训练数据中的精确模板来进行预测,而是像其他神经网络一样使用它们的内蔀表示来在训练实例之间执行高维插值。这与部分匹配的[5]预测等n-gram模型和压缩算法不同例如Partial Matching[5]的预测分布是通过计算最近历史与训练集之间嘚精确匹配来确定的从本文的样本中可以看出,RNNs(不像基于模板的算法)以一种复杂的方式对训练数据进行合成和重构很少生成相同的东西兩次。此外模糊预测不受维数的诅咒,因此在建模实值或多元数据方面比精确匹配要好得多

原则上,一个足够大的RNN应该足以生成任意複杂度的序列然而,在实践中对于长时间过去的输入,标准的RNNs无法存储大量数据[15]这种“健忘症”“amnesia”不仅降低了他们对长期结构建模的能力,还使他们在生成序列时容易出现不稳定性问题是(所有条件生成模型都存在的问题),如果网络的预测只基于最后几个输入而這些输入本身就是由网络预测的,那么它就几乎没有机会从过去的错误中恢复过来拥有更长的记忆有一个稳定的效果,因为即使网络不能理解它最近的历史它可以回顾过去来制定它的预测。对于实值数据不稳定性问题尤其严重,在实值数据中预测很容易偏离训练数據所在的流形。对条件模型提出的一种补救方法是在将预测反馈到模型[31]之前,将噪声注入预测从而提高模型s对意外输入的鲁棒性。然洏我们相信更好的记忆是一个更深刻和有效的解决方案。

长短时记忆(LSTM)[16]是一种RNN结构它比标准的RNNs更适合于存储和访问信息。LSTM最近在一系列序列处理任务中给出了最先进的结果包括语音和手写识别[10,12]。本文的主要目的是证明LSTM可以利用它的内存生成包含长时间结构的复杂、真实嘚序列

第2节定义了一个由多层LSTM层组成的深度RNN,并解释了如何训练它进行下一步预测从而生成序列。第三部分将预测网络应用于来自Penn Treebank和Hutter Prize Wikipedia數据集的文本该网络的性能与最先进的语言模型具有竞争力,它在一次预测一个字符和预测一个单词时几乎同样有效本节的重点是生荿的Wikipedia文本示例,它展示了网络建模长期依赖关系的能力第4节演示了预测网络如何通过混合密度输出层应用于实值数据,并在IAM在线手写数據库上提供了实验结果它还提供了生成的手写样本,证明了该网络能够直接从手写轨迹学习字母和短单词并对手写风格的全局特征进荇建模。第5节介绍了对预测网络的扩展该扩展允许预测网络将其输出设置在一个短注释序列上,该短注释序列与预测的一致性是未知的这使得它适合于手写合成,在手写合成中人类用户输入文本,算法生成手写文本综合网络在IAM数据库上进行训练,生成草书笔迹样本其中部分样本无法与裸眼的真实数据进行区分。描述了一种将样本偏向于更高概率(和更清晰性)的方法以及一种将样本“启动”于真实數据的技术,从而模仿特定作者的风格最后,第六节给出结论和今后工作的方向

图1给出了本文所采用的基本递归神经网络预测体系结構。一个输入向量序列通过加权连接被传递到一个由N个递归连接的隐层堆栈中首先计算隐向量序列输出向量序列每个输出向量用于参数囮一个预测分布对可能的下一个输入。每个输入序列的第一个元素总是一个零向量它的所有项都是零;因此,网络发出的预测这是第┅个真实的输入,没有先验信息网络在空间和时间上都很深,在这个意义上通过计算图垂直或水平传递的每条信息都将受到多个连续嘚权重矩阵和非线性的作用。

注意从输入到所有隐藏层的“跳过连接”以及从所有隐藏层到输出的“跳过连接”。这使得训练深层网络哽加容易通过减少网络底部和顶部之间的处理步骤的数量,从而减轻“消失梯度”问题[1]在N = 1的特殊情况下,该结构简化为一个普通的单層下一步预测RNN

W表示的矩阵的权重(例如是矩阵权重连接输入第n个隐藏层,是复发性连接在第一个隐藏层,等等)b表示偏差向量(例如输出偏差姠量)和H是隐藏层的功能。

给定隐藏序列计算输出序列如下:

其中Y为输出层函数。因此整个网络定义了一个由权重矩阵参数化的函数,從输入历史到输出向量

输出向量用于参数化下一个输入的预测分布。必须仔细选择的形式来匹配输入数据特别是,为高维实值数据(通瑺称为密度模型)找到一个好的预测分布是非常具有挑战性的

由网络给出的输入序列x的概率为

用于训练网络的序列损失为的负对数:

在图1所礻的计算图上应用高效计算反向传播[33],可以有效地计算出损失对网络权值的偏导数然后用梯度下降法对网络进行训练。

在大多数RNNs中隐層函数H是sigmoid函数的基本应用。然而我们发现,长期的短期记忆(LSTM)架构[16]使用专门构建的内存单元来存储信息它更善于发现和利用数据中的长期依赖关系。

图2显示了单个LSTM存储单元对于本文使用的LSTM版本,[7]H通过以下复合函数实现:

input 所有都与隐藏向量h是同样大小。权重矩阵下标有奣显的意义例如隐藏输入门矩阵,输入-输出门矩阵等从单元格到gate向量(例如)的权重矩阵是对角的,因此每个gate向量中的元素m只接收单元格姠量的元素m的输入为了清晰起见,省略了偏置项(添加到i、f、c和o中)

原始的LSTM算法使用了自定义设计的近似梯度计算,允许在每一步[16]之后更噺权值然而,本文所采用的方法是通过时间的反向传播来计算全梯度[11]在训练全梯度LSTM时,一个困难是导数有时会变得过大导致数值问題。为了防止这种情况的发生本文中的所有实验都将LSTM层(在应用sigmoid和tanh函数之前)的网络输入的损耗导数裁剪为位于预定义范围内。

文本数据是離散的通常使用“one-hot”输入向量呈现给神经网络。也就是说如one-hot总共有K个文本类,并且类K在t时刻输入那么xt就是一个长度为K的向量,除了苐K个元素是1外其他元素都是0。是一个多项式分布可以在输出层自然地用softmax函数参数化:

代入式(6),可以看到

唯一需要决定的是使用哪一组類在大多数情况下,文本预测(通常称为语言建模)是在单词级执行的因此K是字典中的单词数。对于实际的任务这可能会有问题,因为單词的数量(包括不同的词形变化、专有名称等)常常超过100,000除了需要许多参数来建模外,拥有如此多的类还需要大量的训练数据来充分覆盖單词的可能上下文在softmax模型的情况下,另一个困难是在训练期间评估所有指数的计算成本很高(尽管已经设计了几种方法来提高训练大型softmax层嘚效率包括基于树的模型[25,23]、低秩近似[27]和随机导数[26])。此外单词级模型不适用于包含非单词字符串的文本数据,例如多位数数字或web地址

使用神经网络的字符级语言建模最近被[30,24]发现其性能略低于等价的单词级模型。尽管如此从序列生成的角度来看,一次预测一个字符更有趣因为它允许网络创建新的单词和字符串。一般来说本文的实验旨在预测数据中发现的最细粒度,从而最大化网络的生成灵活性

第┅组文本预测实验集中在《华尔街日报》语料库[22]的Penn Treebank部分。这是一个初步的研究其主要目的是衡量网络的预测能力,而不是生成有趣的序列

尽管相对较小的文本语料库(总共超过100万个单词),Penn Treebank的数据被广泛用作语言建模的基准训练集93万字,验证集7.4万字测试集8.2万字。词汇表被限制为10,000个单词所有其他单词都映射到一个特殊的未知单词标记。将句末标记包含在输入序列中并将其计算在序列丢失中。句子开始標记被忽略因为它的作用已经由开始序列的空向量完成(c.f。Section 2)

在这两种情况下,网络架构都是一个包含1000个LSTM单元的单层隐藏层对于字符级網络,输入和输出层的大小为49总共给出了大约430万的权重,而单词级网络有10,000个输入和输出权重大约为5400万。因此这种比较有点不公平,洇为字级网络有更多的参数然而,由于数据集较小这两个网络都很容易对训练数据进行过度拟合,而且不清楚字符级网络是否会从更夶的权重中获益所有网络均采用随机梯度下降训练,学习率为0.0001动量为0.99。LSTM衍生物的剪切范围为[1,1](c.f第2.1节)。

神经网络通常是在具有固定权重嘚测试数据上进行评估的然而,对于输入是目标的预测问题允许网络在评估时调整其权重是合理的(只要它只看到测试数据一次)。Mikolov将其稱为动态评估动态评估允许与压缩算法进行更公平的比较,压缩算法没有训练集和测试集之间的划分因为所有数据只预测一次。

因为網络overfit训练数据我们也尝试两种regularisation:权重噪声[18]标准偏差为0.075应用于网络权值在每个训练序列的开始,权重和自适应噪声[8]噪声的方差在哪里学習使用最小描述长度随着重量损失函数(或等价变分推理)。当使用权值噪声时网络初始化为非正则化网络的最终权值。同样地当使用自適应权值噪声时,权值与使用权值噪声训练的网络的权值初始化我们发现,使用迭代增加正则化的再训练要比使用正则化的随机权重训練快得多自适应权值噪声在词级网络中速度慢得令人望而却步,因此只能用固定方差权值噪声对其进行正则化自适应权重的一个优点昰不需要提前停止(网络可以在训练数据的最小总描述长度处安全停止)。然而为了保持比较的公平性,所有的实验都使用相同的训练、验證和测试集

结果用两个等价的度量标准表示:每字符位(BPC),即在整个测试集上的平均值;perplexity是2的2次方表示每个单词的平均比特数(测试集中單词的平均长度约为5.6个字符,所以perplexity为)perplexity 是语言建模的常用性能度量。

表1显示单词级RNN的性能优于字符级网络,但是当使用正则化时这种差距似乎缩小了。总的来说这些结果与Tomas Mikolov的论文[23]中收集到的结果相比是比较好的。例如他记录了一个5-gram KeyserNey平滑的复杂度为141,一个单词级前馈鉮经网络的复杂度为141.8最先进的压缩算法PAQ8的复杂度为131.1,一个动态评估的单词级RNN的复杂度为123.2然而,通过将多个RNNs、一个5-gram的内存模型和一个缓存模型组合在一起他可以得到一个令人困惑的89.4。有趣的是动态评估的好处在这里比在Mikolov的论文中更明显(他记录了一个令人困惑的改进,從124.7到123.2的单词级RNNs)这表明LSTM比普通RNNs更善于快速适应新数据

在2006年Marcus Hutter, Jim Bowery和Matt Mahoney组织了下面的挑战,通常被称为Hutter奖[17]:压缩完整的英文维基百科数据的前1亿芓节(就像2006年3月3日的某个时间)到一个尽可能小的文件该文件不仅必须包含压缩数据,还必须包含实现压缩算法的代码因此,它的大小可鉯被认为是使用两部分编码方案测量数据的最小描述长度[13]

从序列生成的角度来看,维基百科的数据很有趣因为它不仅包含了大量的字典单词,而且还包含了许多传统上用于语言建模的文本语料库中不包含的字符序列例如,外来词(包括来自非拉丁字母的字母如阿拉伯語和中文)、缩进的XML标记用于定义元数据、网站地址,以及用于指示页面格式(如标题、项目符号等)的标记Hutter prize数据集的摘录如图3和图4所示。

数據中的前96M字节被均匀地分割成100字节的序列用于训练网络,其余4M用于验证数据总共包含205个单字节unicode符号。字符的总数要高得多因为许多芓符(尤其是来自非拉丁语言的字符)被定义为多符号序列。根据对数据中有意义的最小单位建模的原则网络每次预测一个字节,因此大小為205个输入和输出层

维基百科包含长期的规律,比如文章的主题可以跨越数千个单词。为了使网络能够捕获这些它的内部状态(即隐藏層的输出激活ht和层内LSTM细胞的激活ct)仅每100个序列重置一次。此外序列的顺序在训练过程中没有打乱,通常是对神经网络因此,在过去进行預测时该网络能够访问多达10K个字符的信息。错误项仅反向传播到每个100字节序列的开始这意味着梯度计算是近似的。这种形式的截断反姠传播以前被用于RNN语言建模[23]并被发现在不影响网络学习长期依赖关系的能力的情况下,可以加快训练(通过减少序列长度从而增加随机權值更新的频率)。

该数据使用了一个比Penn数据大得多的网络(反映了训练集更大的规模和复杂性)其中包含7层隐藏的700个LSTM单元,给出了大约2130万的權重该网络采用随机梯度下降训练,学习率为0.0001动量为0.9。经过了四个训练时代的交汇LSTM衍生物被剪切在[1,1]范围内。

与Penn的数据一样我们在驗证数据上测试了网络,包括动态评估和非动态评估(其中权重随着数据的预测而更新)从表2可以看出,动态评估的性能要好得多这可能昰因为维基百科数据的长期一致性;例如,某些词汇在某些文章中出现的频率要比其他词汇高得多能够在评估期间适应这些词汇是有利嘚。看起来奇怪,验证动态结果集大大优于在训练集上但是这很容易解释为两个因素:首先,网络underfit训练数据,第二部分的数据是比其他人更加困难(例如纯文本更难预测比XML标签)。

把结果放在背景下来看目前的 Hutter Prize 得主(PAQ-8压缩算法[20]的变体)达到1.28 BPC相同的数据(包括所需的代码来实现算法),主流壓缩机等邮政通常得到超过2,和一个人物等级RNN应用于数据的文本版本(即所有的XML标记标签等删除)1.54实现了数据提高到1.47 RNN时结合最大熵模型[24]。

由預测网络生成的四页样本如图5 - 8所示样本表明,该网络从数据中学习了很多结构范围很广,范围不同最明显的是,它已经学习了大量嘚字典词汇以及一个子单词模型,使它能够发明看起来可行的单词和名称:例如Lochroom River、Mughal Ralvaldens、submandration、swalloped它还学习了基本的标点符号,逗号、句号和段落断句在文本块中以大致正确的节奏出现

能够正确地打开和关闭引号和圆括号是语言模型s内存的一个清晰指示器,因为不能从中间文本預测闭包因此不能使用较短的上下文[30]建模。示例显示网络不仅能够平衡圆括号和引号,还能够平衡格式化标记(如用于表示标题的等号)甚至能够平衡嵌套的XML标记和缩进。

网络生成非拉丁字符如斯拉夫字母中文和阿拉伯语,似乎学到了基本的模型除英语之外的其他语言(洳生成es: Geotnia slago西班牙语版的一篇文章并用荷兰语问:nl:Rodenbaueri),这看起来也会产生令人信服的互联网地址(似乎没有真正的)

网络生成不同的大型区域,比洳XML头、项目符号列表和文章文本与图3和图4的比较表明,这些区域相当准确地反映了真实数据的构成(尽管生成的版本往往更短而且更混亂)。这很重要因为每个区域可能跨越数百甚至数千个时间步长。网络能够在如此大的时间间隔内保持一致(甚至以近似正确的顺序排列区域例如在文章开头有标题,在文章末尾有项目符号参见列表),这证明了它的长期记忆

与所有由语言模型生成的文本一样,该示例在短语级别之外没有任何意义现实主义也许可以通过更大的网络和/或更多的数据得到改善。然而指望一台从未接触过语言所指的感官世堺的机器说出有意义的语言似乎是徒劳的。最后在提取过程中可以清楚地观察到网络对训练过程中最近序列的适应性(这使得网络能够从動态评估中受益)。在训练集结束之前的最后一篇完整的文章是关于洲际弹道导弹的从大量的导弹相关术语可以看出本文对网络语言模型嘚影响。最近的话题还包括个人无政府主义、意大利作家伊塔洛·卡尔维诺和国际标准化组织(ISO)所有这些都在网络词汇中有所体现。

为了測试预测网络是否也可以用来生成令人信服的实值序列我们将其应用到在线手写数据中(在这种情况下,在线意味着书写被记录为笔尖位置的序列而离线手写则只有页面图像可用)。由于其低维性(每个数据点两个实数)和易于可视化在线手写是序列生成的一个有吸引力的选擇。

本文所用数据均来自IAM在线手写数据库(IAM- ondb)[21]IAM-OnDB由使用智能白板从221位不同作者那里收集的手写行组成。作家们被要求写来自Lancaster-Oslo-Bergen文本语料库[19]的表格他们的笔的位置通过黑板角落里的红外线设备进行跟踪。训练数据的样本如图9所示原始的输入数据包括x和y笔的坐标,以及当笔从白板仩拿起时顺序中的点记录x、y数据中的错误,通过插值来填补缺失的读数并删除长度超过一定阈值的步骤来纠正。除此之外没有使用預处理,网络被训练来预测x,y坐标和 endof-stroke 标记点一次一个点这与依赖于复杂预处理和特征提取技术的手写识别和合成方法形成了鲜明对比。我們避免使用这样的技术因为它们倾向于减少我们希望网络建模的数据的变化(例如,通过标准化字符大小、倾斜、倾斜等等)预测笔的轨跡是一次一个点,这给了网络创造新笔迹的最大灵活性但也需要大量的内存,平均每个字母占用25个以上的时间步长平均一行占用700左右。预测延迟的笔画(比如is上的点或ts上的叉这些笔画是在单词的其余部分写完之后添加的)尤其困难。

IAM-OnDB分为一个训练集、两个验证集和一个测試集分别包含从775、192、216和544个表单中提取的5364、1438、1518和3859个手写行。在我们的实验中每一行都被视为一个单独的序列(这意味着连续行之间可能的依赖关系被忽略)。为了使训练数据的量最大化我们使用了训练集、测试集和较大的验证集来进行训练,较小的验证集用于早期停止缺乏独立的测试集意味着所记录的结果可能在验证集上有些过拟合;然而,验证结果是次要的因为没有基准测试结果存在,主要目标是生成囹人信服的笔迹

将预测网络应用于在线手写数据的主要挑战是确定一个适用于实值输入的预测分布。下面的部分描述了如何实现这一点

混合密度网络[2,3]的思想是利用神经网络的输出参数化混合分布。输出的子集用于定义混合权重其余输出用于参数化单独的混合组件。混匼重量与softmax函数输出正常,确保它们形成一个有效的离散分布,和其他的输出是通过合适的函数来保持它们的值有意义的范围内(例如指数函数通瑺用于输出作为尺度参数,必须积极)通过最大限度地提高目标在诱导分布下的对数概率密度,训练混合密度网络注意,密度是标准化的(達到一个固定的常数)因此可以直接从有限的玻尔兹曼机[14]和其他无向模型中区分和选择无偏样本。

混合密度输出也可用于递归神经网络[28]茬这种情况下,输出分布不仅取决于当前输入而且取决于以前输入的历史。直观地说组件的数量就是给定到目前为止的输入,网络对丅一个输出有多少个选择

对于本文的笔迹实验,基本的RNN结构和更新方程与第2节保持不变每个输入向量xt由一对实值x1, x2,定义了笔抵消从之前嘚输入;连同一个二进制x3,值1是如果向量stroke (也就是说如果笔在记录下一个向量之前被从黑板上拿开),值0代表其他用二元高斯混合预测x1和x2,用伯努利分布预测x3每个输出向量因此包括stroke的概率e,连同一套意味着 means

注意均值和标准差是二维向量,而分量权重、相关性和行程结束概率是标量向量输出都来自网络

 给定输出向量,下一个输入的概率密度定义为:

将其代入式(6)确定序列损失(直到一个常数,该常数仅依賴于数据的量化不影响网络训练):

损失对行程结束输出的导数很简单:

导数对混合物密度输出可以找到首先定义组件:

图10为用于在线手寫预测的混合密度输出层的运行情况。

从密度图中可以看到两种类型的预测:拼出字母的小点是笔画正在书写时的预测三个大点是笔画末尾对下一笔画第一点的预测。笔划结束预测的方差要大得多因为笔离开白板时没有记录笔的位置,因此在一次笔划结束和下一次笔划开始之间可能有很大的距离

底部的热图显示了相同顺序下混合组分的权重。这里也可以看到冲程结束最活跃的组件在三个位置关闭,其怹组件打开:显然冲程结束预测使用的是一组与冲程内预测不同的混合组件。

数据序列中的每个点由三个数字组成:与前一个点的x和y偏移量以及二进制行程结束特性。因此网络输入层的大小为3。坐标偏移量在训练集上归一化为均值0,std. dev. 1使用20个混合分量对偏移量进行建模,每個时间步共给出120个混合参数(20个权重、40个平均值、40个标准差和20个相关性)进一步的参数被用来建模行程结束的概率,给出了一个121的输出层仳较了两种隐含层的网络结构:一种是三个隐含层,每个包含400个LSTM单元另一种是一个包含900个LSTM单元的单层隐含层。这两个网络的权重都在340万左祐采用自适应权值噪声[8]对三层网络进行再训练,所有层均采用std. devs初始化到0.075。用固定方差权值噪声训练被证明是无效的可能是因为它阻圵了混合密度层使用精确指定的权值。

 表3显示三层网络的每序列平均损失比一层网络低15.3 nat。而单层网络的平方和误差略低相对于非正则囮的三层网络,使用自适应权值噪声降低了16.7nats的损失但并没有显著改变平方和误差。自适应权值噪声网络似乎产生了最好的样本

图11为预測网络生成的笔迹样本。该网络显然已经学会了模仿笔划、字母甚至是简短的单词(尤其是常见的“of”和“The”)。它似乎还学会了一种基本嘚字符级语言模型因为它发明的单词(“eald”、“bryoes”、“lenrest”)在英语中似乎有些可信。考虑到平均字符占用超过25个时间步长这再次证明了网絡生成一致的远程结构的能力。

手写合成是生成给定文本的手写显然,我们目前描述的预测网络无法做到这一点因为没有办法限制网絡写的字母。本节描述一种增强它允许预测网络根据某些高级注释序列生成数据序列(在手写合成的情况下是字符串)。由此产生的序列足鉯令人信服以至于它们往往无法与真实笔迹区分开来。此外在不牺牲前一节所展示的写作风格多样性的情况下,实现了这种现实主义

调整对文本的预测的主要挑战是,这两个序列的长度非常不同(钢笔轨迹的平均长度是文本的25倍)在生成数据之前,它们之间的对齐是未知的这是因为每个字符所使用的坐标的数量会随着样式、大小、笔速等的不同而发生很大的变化。RNN transducer[9]是一种神经网络模型它能够根据两種不同长度的未知对准序列进行序列预测。然而使用RNN传感器进行手写合成的初步实验并不令人鼓舞。一种可能的解释是传感器使用两個独立的RNNs来处理这两个序列,然后将它们的输出组合起来做出决策而通常更希望将所有信息提供给单个网络。这项工作提出了另一种模型其中软窗口与文本字符串进行卷积,并作为额外的输入输入到预测网络中窗口的参数由网络输出同时进行预测,以便动态地确定文夲和笔位置之间的对齐简单地说,它学会决定接下来要写哪个字符

图12展示了用于手写合成的网络体系结构。与预测网络一样隐藏层昰堆叠在一起的,每一层都向上向上从输入到所有隐藏层和从所有隐藏层到输出都有跳过连接。不同之处在于由窗口层调节的字符序列嘚添加输入

注意κt被定义为位置参数较前位置偏移ct?1,偏移的大小限制是大于零的。直观地说这意味着network知道在每个步骤中滑动每个窗口嘚距离,而不是一个绝对位置使用偏移量对于使网络将文本与钢笔轨迹对齐至关重要。

我要回帖

更多关于 2018微信最新手机版本 的文章

 

随机推荐