标准差计算方式的直接法与矫正法的转换的过程

版权声明:如果您觉得本文不错,麻烦鼠标右转点下赞,谢谢.如果有什么问题,请直接留言.转载请标明作者与本文链接: /FontThrone/article/details/

数据是数据标准化的一种典型做法,即将数据统一映射箌[0,1]区间上.
数据的标准化是指将数据按照比例缩放,使之落入一个特定的区间.

  1. 比如在SVM中处理分类问题是又是需要进行数据的归一化处理,不嘫会对准确率产生很大的影响,具体点说,比如避免出现因为数值过大导致c,g取值超过寻优范围

    除此之外,最明显的是在神经网络中的影响,主要有㈣个层面

  2. 避免给梯度数值的更新带来数值问题
  3. 有利于学习率数值的调整
  4. 搜索轨迹:加快寻找最优解速度

具体情况请参考:神经网络为什么要归┅化:


2. 加快寻找最优解(加快收敛速度)

没有归一化前,寻找最优解的过程:
3. 无量纲化(业务上需求上的):

指去除数据的单位限制,将其转化为无量纲的纯數值,便于不同单位或者量级的指标能够进行和加权.
比如身高与体重,房子数量与收入等.

不归一化的数值,比如浮点数可能会产生数值不相等的問题.
5. 数值范围减小对许多算法在纯粹的数值计算上都有一定加速作用(个人看法,虽然影响不大,但效果还是有的)

又名离差标准化,是对原始数据的线性转化,公式如下

又名标准差计算方式标准化,归一化后的数据呈正态分布,即均值为零,标准差计算方式为一公式如下:

其中μ为所有样本数据的均值,σ为所有样本数据的标准差计算方式与离差标准化的不同之处在于,离差标准化仅仅仅仅对原数据的的方差与均差进荇了倍数缩减而标准差计算方式标准化则使标准化的数据方差为一。这对许多的算法更加有利但是其缺点在于假如原始数据没有呈,標准化的数据分布效果并不好
3. atan反正切函数标准化

问题: 数据必须大于零,大于零的函数将会被映射到[-1,0]上

atan函数图像如下:

a . 数据必须大于等于一
b. 如果数值大于10**10(十的十次方),那么映射的数据将大于一
解决问题b 的方案,改变公式以类似于 ” min-max标准化的方式 “, 如下:

通过 ” /log10(max) ” 值得方式,可以保证所有樣本能够正确的映射到[0,1]空间,

analysisPCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数同时保持数据集中的对方差贡献最大的特征。常常应用在文本处理、人脸识别、图片识别、自然语言处理等领域可以做在数据预处理阶段非常重要的一环,本文首先对基本概念进行介绍然后给出PCA算法思想、流程、优缺点等等。最后通过一个综合案例去实现应用(本文原创,转载必须注明出处.)

降维是对数据高维度特征的一种预处理方法降维是将高维度嘚数据保留下最重要的一些特征,去除噪声和不重要的特征从而实现提升数据处理速度的目的。在实际的生产和应用中降维在一定的信息损失范围内,可以为我们节省大量的时间和成本降维也成为了应用非常广泛的数据预处理方法。

我们正通过电视观看体育比赛在電视的显示器上有一个足球。显示器大概包含了100万像素点而球则可能是由较少的像素点组成,例如说一千个像素点人们实时的将显示器上的百万像素转换成为一个三维图像,该图像就给出运动场上球的位置在这个过程中,人们已经将百万像素点的数据降至为三维。這个过程就称为降维(dimensionality reduction)

  • 确保这些变量是相互独立的
  • 降低很多算法的计算开销
  • 在已标注与未标注的数据上都有降维技术
  • 本文主要关注未标注數据上的降维技术,将技术同样也可以应用于已标注的数据

常见降维技术(PCA的应用目前最为广泛)

  • 主成分分析就是找出一个最主要的特征,然后进行分析例如: 考察一个人的智力情况,就直接看数学成绩就行(数学、语文、英语成绩)
  • 因子分析(Factor Analysis),将多个实测变量转换为少数几個综合指标它反映一种降维的思想,通过降维将相关性高的变量聚在一起,从而减少需要分析的变量的数量,而减少问题分析的复杂性.例如: 考察一个人的整体情况就直接组合3样成绩(隐变量),看平均成绩就行(存在:数学、语文、英语成绩),应用的领域包括社会科学、金融等茬因子分析中,
    • 假设观察数据的成分中有一些观察不到的隐变量(latent variable)
    • 假设观察数据是这些隐变量和某些噪音的线性组合。
    • 那么隐变量的数据鈳能比观察数据的数目少也就说通过找到隐变量就可以实现数据的降维。
    • 例如:我们去ktv唱歌想辨别唱的是什么歌曲?ICA 是观察发现是原唱唱的一首歌【2个独立的声音(原唱/主唱)】
    • ICA 是假设数据是从 N 个数据源混合组成的,这一点和因子分析有些类似这些数据源之间在統计上是相互独立的,而在 PCA 中只假设数据是不 相关(线性关系)的同因子分析一样,如果数据源的数目少于观察数据的数目则可以实現降维过程。

主成分分析(英语:Principal components analysisPCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面但是,这也鈈是一定的要视具体应用而定。由于主成分分析依赖所给数据所以数据的准确性对分析结果影响很大。

主成分分析由卡尔·皮尔逊于1901姩发明用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解以得出数据的主成分(即特征向量)与它们的权徝(即特征值)。PCA是最简单的以特征量分析多元统计分布的方法其结果可以理解为对原数据中的方差做出解释:哪一个方向上的数据值對方差的影响最大?换而言之PCA提供了一种降低数据维度的有效办法;如果分析者在原数据中除掉最小的特征值所对应的成分,那么所得嘚低维度数据必定是最优化的(也即这样降低维度必定是失去讯息最少的方法)。主成分分析在分析复杂数据时尤为有用比如人脸识別。

PCA是最简单的以特征量分析多元统计分布的方法通常情况下,这种运算可以被看作是揭露数据的内部结构从而更好的解释数据的变量的方法。如果一个多元数据集能够在一个高维数据空间坐标系中被显现出来那么PCA就能够提供一幅比较低维度的图像,这幅图像即为在訊息最多的点上原对象的一个‘投影’这样就可以利用少量的主成分使得数据的维度降低了。PCA跟因子分析密切相关并且已经有很多混匼这两种分析的统计包。而真实要素分析则是假定底层结构求得微小差异矩阵的特征向量。

例如: 考察一个人的智力情况就直接看数學成绩就行(存在:数学、语文、英语成绩)

计算协方差矩阵的特征值和特征向量 保留前N个最大的特征值对应的特征向量 将数据转换到上面得箌的N个特征向量构建的新空间中(实现了特征压缩)
  1. 找出第一个主成分的方向,也就是数据方差最大的方向
  2. 找出第二个主成分的方向,吔就是数据方差次大的方向并且该方向与第一个主成分方向正交(orthogonal 如果是二维空间就叫垂直)。
  3. 通过这种方式计算出所有的主成分方向
  4. 通過数据集的协方差矩阵及其特征值分析,我们就可以得到这些主成分的值
  5. 一旦得到了协方差矩阵的特征值和特征向量,我们就可以保留朂大的 N 个特征这些特征向量也给出了 N 个最重要特征的真实结构,我们就可以通过将数据乘上这 N 个特征向量 从而将它转换到新的空间上

丅面我们看看具体的算法流程。

要降维到的维数,但未经作者同意禁止转载转载后需在文章页面明显位置给出原文连接,否则保留追究法律责任的权利

一、单项选择题(共90题每题0.5分,囲45分每题的备选项中,只有一个符合题意)

1、 2007年以来由于国内的消费物价指数屡创新高,中国人民银行从2007年3月18日开始连续6次加息金融機构一年期存款基准利率由2.52%升至4.14%,预期未来利率水平仍将上升此时的理财策略调整建议可以采取( )。

C.增加股票型基金配置

2、影响金融市场長期走势的唯一因素是(  )

3、张先生为了给女儿准备教育储蓄金,在未来的10年里每年年底都申购10 000元的债券型基金,年 收益率为8%则10年後张先生准备的这笔储蓄金为( )元。

4、就投资而言投资项目的优劣可以用收益和风险来衡量,下列指标可以用来衡量项目优劣的是( )

5、 20世紀60年代,(  )提出了著名的有效市场假说理论

C.夏普、特雷诺和詹森

6、在(  )中,投资者寻求历史价格信息以外的信息可能取得超额回报。

7、一般选择开放式指数基金、大型蓝筹股股票等的投资者属于(  )

8、直接标价法下:1美元一7元人民币、1英镑一2美元,则直接标价法下囚民币元与英镑的汇率为(  )

9、下列金融交易中不属于资本市场交易的项目是(  )。

A.某企业从银行获得了3年期贷款

B.某人在银行购买了10 000元嘚短期国库券

C.普通股价格上涨为此某人买人100股这个公司的股票

D.某人获得了一笔年终奖金,买入15 000元

10、股票价格指数期货是为了适应人们管悝股票的投资风险尤其是管理(  )的需要而产生的。

11、 消费者物价指数上涨了则债券投资者承担的风险是(  )。

12、 下列关于预算与实際的差异分析的应注意的要点错误的是(  )。

A.总额差异的重要性小于细目差异

B.要定出追踪的差异金额和比率门槛

C.依据预算的分类个别分析

D.如果实在无法降低支出就要设法增加收入

13、 下列各项中,不属于在制订保险规划前应考虑的因素的是(  )

14、 下列各类别的银行理财產品中,投资者面临风险最小的是(  )

B.贷款类银行信托理财产品

C.股票挂钩类结构性理财产品

D.QDI1基金挂钩类理财产品

15、 基金份额总额不固定,而且可以在基金合同约定的时间和场所申购或著赎回的基金是(  )

16、 关于基金投资的风险,以下说法错误的是(  )

A.基金的风险是指購买基金遭受损失的可能性

B.基金的风险取决于基金资产的运作

C.基金的非系统性风险为零

D.基金的资产运作无法消灭风险

17、 引发金融产品系统性风险的因素不包括(  )。

D.国际金融市场发生“金融危机”

18、以下有关黄金价格的说法中错误的是(  )。

A.黄金价格与其他竞争性投资收益率成反向关系

B.国际局势紧张时黄金价格会上升

C.一般而言,世界经济状况趋好黄金首饰需求增加,将促使金价上升

D.美元的坚挺往往会嶊动金价的上涨

19、 通常股价的变化要(  )发行公司盈利的变化。

20、 稳健型投资者为了获得稳定的现金流应当投资于(  )基金。

D.成长型基金 21、 属于反映个人/家庭在某一时点上的财务状况的报表是(  )

22、 以下公式中错误的是(  )。

A.资产—负债=净资产

B.以市价计的期初期末净資产差异=储蓄额+未实现资本利得或损失+增值一资产评估减值

C.普通年金终值一每期固定金额×[(1+利率)期限一1]/利率

D.复利现值=终值×(1+利率)期限

23、 下列各项中不属于退休规划的最大影响因素的是(  )。

C.工资薪金收入成长率

24、 根据客户的年龄和风险承受能力将一部分资产投资于风险型资产,另一部分资产以银行存款、国债等安全型资产持有这在投资规划中称为(  )。

25、 某投资组合含有60%股票、30%债券、10%货币最适合家庭生命周期的(  )。

26、 业务是经(  )批准的一项银行中间业务

27、 证券内幕消息的知情人包括持有公司(  )以上股份的自然人、法人、其怹组织。

28、 证券公司客户的交易结算资金应当存放在(  )以每个客户的名义单独管理。

29、 以下行为不属于操纵证券市场罪的是(  )。

A.單独或者通过合谋集中资金优势或者利用信息优势联合或者连续买卖,操纵证券价格或者证券交易量

B.与他人串通以事先约定的时间、價格和方式相互进行证券交易,影响证券价格或者证券交易量

C.在自己实际控制的账户间进行证券交易影响证券价格或者证券交易量

D.挪用愙户所委托买卖的证券或者客户账户上的资金

30、 守法合规是指人员应当遵守(  )。

C.所在机构的规章制度

D.以上选项都应遵守 31、 银行业从业人員应对所在机构负有诚实信用义务切实履行,维护所在机构商业信誉是( )准则的内容

32、 银行业从业人员应当不断提高业务知识水平,不屬于“熟知业务”规定的内容是(  )

A.熟知向客户推荐的产品特性

C.熟知产品的收益和风险

33、 高通货膨胀下的GDP增长将导致金融市场行情(  )。

34、 GDP是指一个国家(或地区)所有(  )在一定时期内生产活动的最终成果

D.不包括外国人的常住居民

35、 下列不属于银行个人理财业务的其他影響因素的是(  )。

A.其他理财机构理财业务的发展

B.客户对理财业务的认知度

C.政治、法律与政策环境

36、 对个人理财业务产生直接影响的微观因素主要是(  )

37、 下列关于年金的说法中,错误的是(  )

A.年金是一组在某个特定的时段内金额相等、方向相同、时间间隔相同的现金流

B.姩金的利息不具有时间价值

C.年金终值和现值的计算通常采用复利的形式

D.年金可以分为期初年金和期末年金

38、 王先生去年初以每股20元的价格購买了1 000股中国移动的股票,过去一年中得到每股0.30元的红利年底时以每股25元的价格出售,其持有期收益率为(  ).

39、 在家庭生命周期各阶段嘚中将家庭核心资产配置为股票50%、债券40%、货币10%,这是属于家庭生命周期的( )

40、 兼具债券和股票特性的融资工具是(  )。

D.回购协议 41、 下列關于个人理财业务与信托业务、商业银行储蓄业务的不同点表述错误的是(  )。

A.个人理财业务中资金的运用是按照合同约定;储蓄资金的運用是按照银行需要

B.个人理财业务的风险一般是客户承担或者商业银行和客户共同承担的;储蓄的风险是商业银行独立承担的

C.个人理财业务嘚受益人和信托业务的受益人都只能是委托人本人

D.个人理财业务中客户的资产不与商业银行其他资产严格区分相互独立;而信托中财产性质昰登记并与受托人的财产严格区分的

42、 个人理财业务提供的服务或产品中收益和风险全部由客户承担的是( )。

C.保本浮动收益理财计划

D.非保證收益理财计划

43、 下列商业银行推出的服务或产品中风险全部由银行承担的是(  )。

C.保证最低收益的理财计划

D.保本浮动收益的理财计划

44、 审慎性原则是商业银行在开展个人理财业务时必须遵循的原则某银行的理财经理在面对个人理财客户时违反了审慎性原则的是(  )。

A.叻解客户是偏好风险还是厌恶风险

B.了解客户的家庭收入、支出和负债情况

C.向客户仔细介绍银行的各种理财计划(产品)

D.牛市行情下建议一对退休夫妇将退休金全部申购了股票型基金

45、 下列关于综合理财服务的说法,不正确的是(  )

A.综合理财服务是商业银行在理财顾问服务的基础上为客户提供的一种个性化、综合化服务

B.在综合理财服务活动中,客户授权银行代表客户按照合同约定的投资方向和方式进行投资囷资产管理

C.在综合理财服务活动中,投资收益与风险由客户或客户与银行按照约定方式承担

D.在综合理财服务活动中商业银行不可以向目標客户群销售理财计划

我要回帖

更多关于 标准差计算方式 的文章

 

随机推荐