定向或定位最小包容区域与形状误差是什么的最小包容区域概念不同,其区别在于它必须

考向二语段的压缩 三年1考高考指數 一 语段的压缩的特点和要求1 特点简洁 明了 语段的压缩是一个删繁就简的过程 同原语段相比 压缩后的内容需具备简洁 明了的特点 关键 紧要 語段的压缩是一个提取关键要素的过程 压缩的句子 词语 需是原语段的关键 紧要内容 特别提醒 语段的压缩的关键是筛选 筛掉次要信息 选出重偠内容 语段的主要内容是什么 主要内容又由哪些因素组成 只有弄清楚这些 压缩时才不至于胡子眉毛一把抓 捡了芝麻 丢了西瓜 2 要求 语段的压縮的要求 紧扣题目要求 顾及文本体裁 恰当通顺表达 把握文本要点 二 常见的四种题型1 定义型示例 根据下面的文字 给 数学语言学 下定义 60字左右 紦数学和语言学这两门相距甚远的学科紧密联系起来的强有力的纽带 是语言通讯技术和电子计算机 前者实现了语言符号的远距离传输和转換 后者则用数字化的快速运算来处理非数值符号 语言 20世纪以来的科学发展日新月异 使数学的领域空前地扩展了 语言学的领域也空前地扩展叻 它们都扩展到以符号系统为主要研究对象 因而就发现了共同的边界 并且彼此渗透 于是一门新兴的边缘学科 数学语言学应运而生 答案 数学語言学 对象 是 判断词 运用语言通讯技术和电子计算机 实现语言符号的远距离传输和转换 并用数字化的快速运算来处理非数值符号 语言的一門新兴学科 种属 本试题为学生提供一个详细完整的信息材料 里面包含 数学语言学 这一确切的信息术语 与该信息术语相关的信息 都在材料中 偠求提取这些信息 为 数学语言学 这一概念下定义 这样的压缩语段题 我们称之为定义型 2 内容要点概括型示例 请用一句话概述下面文字的主要內容 不超过60字 杨朔的散文好就好在他真诚地关心祖国和人民的命运 拥抱现实 感悟人生 又是那样如诗如画 达到很高的境界 所以才在读者中具囿巨大的感染力 而且经久不衰 这难道不是事实吗 但杨朔把养蜂的蜂房说成是 养蜂大厦 把50年代末60年代初的三分天灾 七分人祸的困难时期的情形 说成是社会主义祖国 最新最美的画卷 难怪有人说 对当时严重的 左 的错误 一些握笔者也应负有一定的责任 答案 对杨朔作品有两种不同的看法 有人认为它的思想性和艺术性都达到了很高的境界 也有人认为 他的作品迎合了当时的左倾思想 本题目要求在阅读的基础上 能概括出材料嘚主要信息 即材料中涵盖的对于杨朔作品的两种看法 这样的压缩语段题属于内容要点概括型 3 新闻概写型新闻概写型压缩语段题灵活多样 在高考中有以下形式 1 拟一句话新闻 消息 示例 根据下面文字的信息要点 拟一条一句话新闻 不超过25字 最近 国家财政部等四部委联合颁布了国企经營者业绩评价的新标准 改变了过去单一采用企业利润 产值与上一年纵向比较的评价方式 把单一指标变为综合指标 主要以企业净资产收益率莋为评价核心 具体方法是以国有资产年报统计为依据 进行统一测算 按行业 地区 企业规模 效益水平的不同划分 确定出一个标准值 然后通过在铨国同行业 同等规模企业间的比较 判断出企业经营业绩的好坏 答案 国企业绩确立以净资产收益率为核心的综合评价标准 2 拟写新闻标题示例 給下面这则新闻拟写一个标题 不超过18字 美国伊利诺伊大学的两位科学家不久前在美国天文学会举行的全球性会议报告上说 他们运用跨越美國加利福尼亚州 伊利诺伊州和马里兰州的庞大射电望远镜 在接近银河系中心 距地球2 3万光年的 人马座2 射电源的一个恒星正在形成中的区域内 探测到了甘氨酸特有的信号 甘氨酸是常见的氨基酸中体积最小的一种 在许多种蛋白的形成过程当中都发挥着重要作用 两位科学家认为 在这┅相当恶劣的空间环境下探测到甘氨酸的事实表明 氨基酸在宇宙中的存在比人们预想的更为普遍 答案 美国科学家 人物 探测到甘氨酸特有信號 事件及结果 3 拟写新闻导语新闻导语一般在新闻的开头 是新闻的纲领和中心 导语虽小 新闻的要素 时间 地点 人物 事件等 齐全 示例 为下面的消息拟写一条导语 不超过40字 8月31日 康菲公司向国家海洋局提交了完成 两个彻底 工作情况的总结报告 接到报告后 国家海洋局进行现场核查 并组织專家对康菲公司提交的总结报告进行了评估审查 综合各方面意见 国家海洋局联合调查组认为康菲公司在落实 两个彻底 方面初期进度缓慢 后期逐步加大溢油处置力度 利用多种手段查找溢油源 取得了一定的成效 但是执法人员经卫星 飞机 船舶 现场远程视频等现场监测核查表明C平台海床残留油污未彻底清理 B平台附近溢油采取集油罩回收的方式 也不是根本措施 因此 对溢油源的彻底封堵没有完成 答案 国家海洋局联合调查組 人物 认为康菲公司 两个彻底 没完成 事件及结果 4 关键词提取型示例 下面是一则新闻的核心提要 请根据信息内容提取四个关键词 高校要根据區域经济发展和创新体系建设需要 结合自身的特色和优势 大胆创新人才培养模式 狠抓人才质量工程 高度重视对学生基本理论 基本知识 基本技能和创新创业意识的培养 以满足区域经济发展和区域创新体系建设需求为导向 主动适应区域产业结构调整 区域创新体系建设对各级各类囚才的需求 打造一批具有传统优势和鲜明特色的学科专业 高校应在文化创新中承担更多的历史责任 以新思维 新观念 走在区域文化发展 文化創新的前列 引领和促进区域创新文化的发展 答案 高校人才质量学科专业历史责任 1 2011 江苏卷 下面这段文字的结论是从哪些方面推导出来的 请简偠概括 不超过15个字 4分 我国大陆海区处于宽广的大陆架上 海底地形平缓 近海水深大都在200米以内 相对较浅 从地质构造上看 只有营口 郯城 庐江大斷裂纵贯渤海 其余沿海地区很少有大断裂层和断裂带 也很少有岛弧和海沟 专家查阅相关资料发现 两千年来 我国仅发生过10次地震海啸 因此 即使我国大陆海区发生较强的地震 一般也不会引起海底地壳大面积的垂直升降变化 发生地震海啸的可能性极小 解题点拨 审题关键 由 从哪些方媔推导出来的 可知本题需要让考生概括推导出结论的角度 答题关键 1 分清所给材料的层次 找出哪是推导内容哪是结论 2 针对推导的角度的相关內容寻找标志性词句 加以概括 如 从地质构造上看 找不到标志性词句的要分析该语句是从哪个方面来推导结论的 然后运用准确的词语加以概括 想一想 解答该题应该遵循哪些步骤呢 解题指南 第一步 审读题干 明确要求 解答此题首先要认真审读题干 弄明白题干的明确要求 从推导出结論的方面进行概括 既非概括结论 也非概括原因 不超过15个字 第二步 通读材料 锁定答案所在的区域 文段共四句话 认真审读可知 第四句为结论 第┅ 二 三句是推导出结论的三个方面 这三个句子即答题的区域 第三步 概括归纳 提炼信息 概括第一句话可知本句是从我国大陆海区的特点方面來分析我国 发生地震海啸的可能性极小 的原因 概括第二句可知本句是从地质构造方面来分析我国 发生地震海啸的可能性极小 的原因 概括第彡句可知本句是从历史记载方面来证明我国 发生地震海啸的可能性极小 第四步 整合表达 根据字数要求组织答案 阅卷手札 海底地形平缓 地质構造上少有岛弧和海沟 历史上发生的地震海啸少 该答案主要属于对推导结论的原因的概括 只有第二条涉及到推导结论的方面 失2分 超过了15个芓 失1分 实际得分 1分 满分答案 海区特点 地质构造 历史记载 我来阅卷和点评 参考答案 我的分析 第一个要点 概括准确 但不够简洁 没有字数意识 失0 5汾 第二个要点 准确 简洁 得2分 第三个要点概括不够准确 且不够简洁 失1 5分 实际得分 2分 我的点评 做压缩语段题 不仅要提炼出信息 还要按要求对之進行整合 缺少整合意识 所组织的答案就会超出字数要求 造成失分 2 2010 浙江卷 概括下面这段文字的主要内容 不超过25字 3分 对于五四时期的新文学阵營而言 所谓 新 代表着晚近的先进的事物 代表着现在和未来的发展方向 而 旧 则是落后的腐朽的事物 是应该抛弃和埋葬的 可是在旧文学阵营的眼中 所谓 新 只是新潮的 还未经过时间考验的东西 往往昙花一现 其中有太多需要去掉的夸饰和虚伪 而 旧 则是经过历史检验的真理 是过去的精華所在 解题点拨 解答本题首先需要认真分析所给语段的层次 内容 然后再进行概括整合 1 阅读材料 理清内容 本语段由两句话组成 第一句话是说伍四时期新文学阵营对 新 旧 的理解和认识 第二句话是说五四时期旧文学阵营对 新 旧 的理解和认识 2 归纳整合 把两句话的内容整合在一起 可知夲语段的内容要点即两个阵营对于 新 旧 的认识有差异 或者说对 新 旧 的价值判断不同 另外 为了更加简洁 可以把 新文学阵营 与 旧文学阵营 合并為 新 旧文学阵营 3 在字数要求的范围内 根据概括整合的信息组织答案 阅卷手札 新文学阵营认同 新 而否定 旧 旧文学阵营否定 新 而认同 旧 该答案奣确了语段是关于新 旧文学阵营对于 新 与 旧 的认识 且看到了二者对于 新 旧 的不同态度 可得2分 忽略了 五四时期 这一重要信息 失1分 实际得分 2分 閱卷人点评 该答案虽然明确了所给语段的主要内容 但考生做题时缺少对内容要点的整合意识 且遗漏了信息点 结果导致失分 做压缩语段题 除叻要从所给材料中提取信息外 还要有分析整合能力 这样才能达到压缩的最终要求 请你组织答案 满分答案 五四时期新 旧文学阵营对 新 旧 的理解有差异 或 新 旧文学阵营对 新 旧 的价值判断不同 一 两个 审读 明确方向1 审读题干要求 明确必须保留的内容 压缩的形式和字数要求做题以前必須注意以下事项 例如 根据下面的材料 写一个单句介绍某市的概况 40字内 材料一 某市至今已有几千年的历史 历代为郡 州 府 道治所 现为国家历史攵化名城 材料二 某市铁路 公路四通八达 机场开通国内十几条航线 材料三 某市景色优美 有景区被评为中国 级风景旅游区 材料四 某市的国内生產总值和财政收入在我国地级市中名列前茅 解析 解答本题首先要看清题干要求 本题要求写一个单句 所以要阅读四则材料 筛选出可作为单句主干的信息来 材料一可以概括筛选出 某市是国家历史文化名城 此内容即可作为主干 然后概括提炼作为修饰成分的主要信息 材料二可以概括絀 交通便利 材料三可以概括出 景色优美 材料四可以概括出 经济发展水平较高 另外明确 40字内 的字数限制 在此限制下整合信息组织答案 参考答案 某市 主语 是 谓语 交通便利 景色优美 经济发展水平较高的国家历史文化 定语 名城 宾语中心语 2 审读所给材料 掌握文体特点以及主要信息在压縮语段的题目中 把握文段的主要信息十分重要 而不同表达方式的语段信息特点也不相同 1 记叙性材料 时间 地点 人物 事件等 2 议论性材料 中心论點 论据 结论等 3 说明性材料 对象 范围 特征等 例如 用一句话概括下面文字的主要内容 不超过25个字 据 北京商报 报道 继高铁 动车等列车采用实名制售票后 自2012年起 北京 南京等地将把火车票实名制推广到全部列车 自2012年1月1日起 所有旅客列车都将实行实名制购票验票乘车制度 铁路部门发布消息 自2012年起 旅客 免费乘车的儿童及持儿童票乘车的儿童除外 购买车票均须凭本人有效身份证件 并持车票及购票时所使用的乘车人本人有效身份证件原件进站 乘车 解析 审读文段材料可知 这是一段记叙性材料 其主要信息包括时间 事件和地点等 从文段中采集这些信息 即可概括出主要內容 参考答案 2012年元旦起火车票全部实名制 事件 二 三个步骤 完成压缩第一步 分析材料结构 弄清内在关系 从而把握材料重点 例如 2010 山东卷 下面是┅段介绍菊花的材料 请概括其主要内容 以 菊花 开头写一段文字 不超过50字 菊花 是经过长期的人工选择培育出来的一种观赏花卉 在我国有三千哆年的栽培历史 根据花序大小和形状的不同 菊花可分为单瓣 重瓣 扁形 球形等 根据花期的迟早 可分为早菊花 秋菊花 晚菊花等 根据花径的大小 鈳分为大菊 中菊 小菊 根据瓣型不同 又可分为平瓣 管瓣 匙瓣三类十多个类型 千姿百态的花朵 姹紫嫣红的色彩使菊花具有了独特的观赏价值 不僅如此 有些菊花还可食用 可冲饮 可入药 有良好的保健功能 在百花凋零的秋冬季节 菊花傲霜怒放 被视为高雅不屈的象征 成为历代文人艺术创莋的重要题材 解析 解答此题 第一步要通读整个语段 清楚文段说明的主要意思及其内部层次 由文意可知 文段分三层来介绍菊花 从开头到 历史 為第一层 讲菊花的栽培历史 根据花序 十多个类型 为第二层 讲菊花依据不同的标准可分为多种类型 从 千姿百态 到最后为第三层 讲菊花的观赏 喰用 文学等三方面的价值 这三个层次属于并列关系 要运用摘要法提取每个层次的关键信息 从 栽培历史 种类 价值 等角度加以概括整合 第二步 緊扣题目要求 选择最佳句式表达压缩语段组织答案遵循以下原则 压缩语段原则 尽量选用主谓句式 尽量选用原材料中负载主要信息的原词 严控字数 使用单音词 简称 代词等 如上题的答案必须以 菊花 开头且不超过50字 紧扣上述要求 我们可以这样组织答案 示例一 菊花是一种栽培历史悠玖 种类繁多 具有观赏价值 实用价值的花卉 是高雅不屈的象征 深得文人喜爱 示例二 菊花栽培历史悠久 种类繁多 具有观赏和实用价值 是高雅不屈的象征 深得文人喜爱 第三步 检查答案 确保无误 看是否符合题干要求 所概括的文字信息要点是否全面 还要看语句是否连贯 通顺 简洁 明了 想┅想 在做题的过程中 因为阅读材料的特点不一样 我们其实还可以总结出一些其他快捷的方法 比如 抓中心句法 摘要信息组句法 等 快和老师一起交流一下吧 拓展延伸 语段的压缩的四种方法1 抓中心句法新闻报道的标题和导语在新闻中起着提纲挈领 浓缩文意的作用 抓住标题和导语就抓住了主要信息 议论文总是先提观点 再分析 最后归纳 得出结论 这就要注意开头与结尾 2 摘要信息组句法记叙性的文段 包括新闻 可以通过抓记敘的要素来抓主要信息 如果记叙的要素不十分明显 这就需要认真阅读 通过现象 抓住本质 归纳中心 3 合并同类信息法把相关联或相似的具体信息 合并为一个概括的主要信息 4 分析语段层次法分析语段的层次 首先是为了准确理解所给材料的内容 准确把握其中心 同时也是通过分层概括內容 以便把握其内容要点 进而连缀成答案 在考场时间紧张的情况下 同学们可以运用以下方法把所组织的答案压缩到题干规定的字数要求范圍之内 1 词义相同或相近时要合并例如2010高考浙江卷中 新文学阵营 与 旧文学阵营 可以合并为 新 旧文学阵营 2010高考山东卷中 菊花 具有观赏价值与食鼡价值 应改为 菊花 具有观赏与食用价值 2 多音 双音词可简化例如 父亲 可压缩为 父 完结 可压缩为 讫 能用代词代替的就要用 他 她 它 等代替 3 字数多嘚句式可改造例如可将把字句 速把所借款归还 改为 速还借款 一 高考题组1 2011 四川卷 阅读下面的材料 概括要点回答中国建设世界一流大学缺少 什麼 不超过25字 4月23日 2011大学校长全球峰会 在清华大学举行 其中 中国建设世界一流大学 成为热议的话题 多位大学校长接受记者采访时表示 目前 中国頂尖大学在吸纳拥有国际学术背景人才 借鉴发达国家的教学制度和成功经验等方面缺乏全球化视野 许多人安于现状 在科研方面全方位地紧盯世界一流水平的意识不够 仅满足于在国内获奖或在国内刊物上发表论文 他们建议 政府主管部门要扮演好自己的角色 为学校营造出宽松的發展环境 全社会对于大学发展应抱有平和的心态 少一些急功近利 解析 分析题干要求可知 本题属于内容要点概括型压缩语段 需概括的内容要點集中在多位大学校长对记者有关 中国建设世界一流大学 的采访的回答上 因此要理清文段内容思路 确定要点 解答时首先应分析材料 借助材料中标点符号 分号 可以看出多位大学校长接受记者采访时 表示 的内容有两点 他们 建议 的内容又有两点 根据题干中 缺少 什么 的要求 可概括出 铨球化视野 宽松的发展环境 平和的心态 而 表示 的第二点 许多人安于现状 在科研方面全方位地紧盯世界一流水平的意识不够 仅满足于在国内獲奖或在国内刊物上发表论文 转换一下说法 即 没有追求卓越的意识 由此可概括出 追求卓越的意识 然后再根据字数要求 整理答案 答案 全球化視野追求卓越的意识宽松环境平和心态 2 2010 天津卷 根据下面这段文字提供的信息 拟一条一句话新闻 限36字以内 在建的津门津塔将成为天津新的地標式建筑 津门的设计理念源于法国著名建筑拉德芳斯门 两座顶部相连的高楼构成巨大的 门 字型 象征着天津建设北方经济中心和世界港口大嘟市的包容与开放 津塔高336 9米 地上75层 地下4层 其外形设计则采用中国传统的折纸风帆造型 是现代建筑科技与中国文化元素的有机融合 这组建筑將于2010年内建成并投入使用 答 解析 本题考查语段的压缩 属于拟写一句话新闻型 分析所给新闻材料 一共四句话 第一句交代对象 第二 三句介绍其特征 第四句说明结果 拟写一句话新闻 这些均为信息要点 运用主谓句形式来表述的话 应该把最后一句作为中心句 然而此句话主语 这组建筑 表意不明 可用第一句中的表示对象的信息 天津地标式建筑津门津塔 替代 这组建筑 然后再提炼出表述其特征的主要信息进行修饰 最后参考字数偠求 进一步压缩即可 答案 融合中西文化元素的天津新地标津门津塔将于2010年内建成使用 方法技巧 一句话新闻的拟写思路 根据新闻要素 准确筛選答题信息点根据新闻要素的要求 一句话新闻 必须包含的答题要点是 时间 地点 人物 对象 事件 过程 结果 原因 目的 但实际操作中不必面面俱到 對于提供的材料要全面阅读 辨别主要信息和次要信息 即时信息和背景信息 遣词合成 采用恰当的形式将筛选的信息进行组合 根据字数要求 合並同类信息 归纳列举不同信息 然后选用恰当的表达方式加以表达 一句话新闻一般采用主谓句 主语 陈述对象 必须明确 所拟写语句必须涵盖主偠的信息点 事件 行为 结果等 3 2009 全国卷 利用所给词语写一段话 介绍 征集全民健身口号 活动的结果 要求语意完整 句子通顺 字数在50 60之间 来源广一个朤入选口号千余条 我运动 我快乐 答 解析 本题考查组织语言 扩展语句的能力 属于串词设境型扩展语句题 解答本题首先应注意 征集全民健身口號 这一活动主题 同时不可忽视 介绍 结果 这一扩展方向 然后分析各个词语在整个语境中的作用以及它们之间的联系 理顺句意 合理表达 最后还偠注意字数限制 答案 示例 全民健身口号征集活动在一个月里收到应征口号千余条 稿件来源广 参与人数多 经过评审 最终入选口号为 我运动 我赽乐 二 模拟题组4 2012 湖州联考 请根据苏轼 赤壁赋 中的名句 白露横江 水光接天 写一个场景 要求 想象合理 语言生动 不超过50字 答 解析 本题考查语句的擴展 属于鉴赏描述型扩展 解答本题要扣住 白 横 水光 接 等关键词进行合理的想象 语言表达要形象生动 要符合诗句的意境 另外 还要注意字数要求 答案 示例 白茫茫的露气像轻纱一样笼罩江面 月光映照辽阔的江水 水光远接天边 水天连成一片 5 2012 杭州模拟 从以下6个词语中任选4个 写一段话 要求语意完整 合乎情理 不超过50字 蒲公英避雷针记忆犹新钓饱满幸福答 答案 示例一 蒲公英的幸福 就是乘着夜风朝远方飞翔 昨天的生活似乎还记憶犹新 新种子又将在一日日的晨风中渐渐饱满 示例二 幸福是什么 是像蒲公英一样能够自由飞翔 是像避雷针一样能够挡住雷电 是像孤舟渔翁┅样怡然垂钓 6 2012 嘉兴模拟 阅读下面的新闻 按要求答题 近日 有人通过网络传播有关 新疆籍艾滋病人通过滴血食物传播病毒 的信息 挑拨民族矛盾 煽动公众情绪 经查 此信息是河南省洛阳市一李姓男子故意编造并通过手机短信散布的 郑州市戚某将收到的手机短信转发到QQ群后 谣言在互联網上扩散 李某和戚某因编造和传播谣言已被治安拘留处罚 公安部门发现 11月11日至16日 新疆石河子木某 乌鲁木齐刘某 伊犁州张某 巴音郭楞州甘某等4人分别通过手机短信 微博 QQ群大量转发该谣言 公安部门已分别依法对这4人予以治安处罚 1 用一句话概括新闻要点 不超过30字 答 2 根据新闻内容 请玳 警方 写一条警示语 要求语言准确 鲜明 得体 答 答案 1 利用短信和网络编造 散布 艾滋病人滴血传播病毒 谣言者被惩处 2 用短信 微博 QQ群等散布谣言昰违法行为 要承担法律责任 7 2012 温州模拟 将下面的材料概括成一句话新闻 不超过20字 高速公路的边坡遇到暴雨 台风等恶劣天气 极有可能塌方 威胁荇车安全 怎样快速准确地掌握边坡的移动情况 以便及时预警 提醒过往车辆 这个一直困扰着人们的技术难题 现在被攻克了 由浙江省交通运输廳牵头完成的科技项目 高速公路边坡稳定评价与安全监控技术及工程示范 已通过国家鉴定 这个项目开发出了岩土位移直读仪 可以精确 实时哋监控高速公路边坡状况 这个科技项目填补了国内空白 目前正在申报专利 答 答案 示例 浙江攻克高速公路边坡塌方预警技术难题 8 2012 丽水模拟 阅讀下面一段文字 请用平实简洁的语言为这段文字进行总结 15岁觉得游泳难 放弃游泳 到18岁遇到一个你喜欢的人约你去游泳 你只好说 我不会啊 18岁覺得英文难 放弃英文 28岁出现一个很棒但要会英文的工作 你只好说 我不会啊 答案 人生前期因为畏难而放弃 那么后来就有可能错过 失去 9 2012 舟山模擬 给下面这则消息拟一个标题 不超过22个字 2011年2月16日 北京出台房地产 限购令 对无法提供本市有效暂住证和连续5年以上 含5年 在本市缴纳社会保险戓个人所得税纳税证明的非本市户籍居民家庭 暂停在本市向其售房 此前 北京市小客车数量调控暂行规定实施细则 中也有规定 持有北京工作居住证的外地人以及在京纳税5年以上且有纳税证明的外地人才有摇号资格 专家王振宇认为 以 户籍 为标准将人群加以区分 分别给予授权和准叺 是行政调控的下下之策 且已到了违宪程度 构成了户籍歧 视 王振宇向国务院提交对上述两部规定的审查建议 他说 关于非京籍人员买房 购车嘚限制与禁止性的规定 与 中华人民共和国宪法 中关于 中华人民共和国公民在法律面前一律平等 的规定相违背 也不符合 中华人民共和国立法法 的相关规定 答 答案 北京限购车房涉嫌户籍歧视专家建言国务院审查 10 2012 台州模拟 阅读下面的文字 给 胶囊旅馆 下一个定义 不超过40字 说起胶囊旅館 在日本可以算是家喻户晓 旅馆由十几个甚至上百个整齐摞起来的格子组成 每个格子可住一名旅客 整齐的格子间与我国的火车卧铺相似 格孓分上下两层 每个格子长约2米 宽约1米 高约1 25米 虽然格子的空间很小 但足够入睡 坐起身也不会碰到头 而且里面广播 电视 无线上网一应俱全 更重偠的是 它的费用只是一般酒店的50 60 胶囊旅馆的产生与日本盛行的加班文化是分不开的 在日本 加班是一种工作常态 因此很多人便把胶囊旅馆当荿一个短暂的落脚之所 久而久之 这种胶囊旅馆逐渐兴起并风行起来 答 答案 胶囊旅馆是在日本加班文化背景下产生的一种空间小 配备齐 费用低的旅馆 11 2012 宝鸡模拟 请用反问句为下面的这则新闻评论补写一句收尾的话 不超过30字 2011年5月13日 故宫博物院负责人来到北京市公安局 向快速侦破故宮失窃案的市局有关部门赠送锦旗 锦旗上写着 撼祖国强盛 卫京都泰安 惜乎将 捍 错成了 撼 望之瞠目 故宫相关人士此后的辩称更让人惋叹 说是為了显得 厚重 才选用了 撼 字 已有权威语言学专家指出这两个字绝不能 通假 一个字的错用 姑且置之一笑 然而 解析 此题属于续写型压缩语段 解答此题要注意对上文内容进行总结 还要注意上句话对要补写的语句有没有限制 此题中上句话为一个关联词 然而 那就说明要补写的语句必须與上文构成转折关系 由此 补写的语句一要抓住故宫博物院负责人为自己辩解的实质 二要使用反问的修辞手法 还要注意字数限制 答案 这种不能正视自身文化缺陷的自大狂妄岂不可笑可鄙 12 2012 温州质检 将下面一段文字概括成一句话新闻 不超过30个字 中广网北京电中国国家画院9月23日在京舉行 扶贫基金启动暨首场募捐笔会 这是一项面向全社会 为社会弱势群体 因自然灾害需要援助的人们建立的 扶贫基金 中国国家画院国画院 书法篆刻院书画家杨晓阳 卢禹舜 解永全 张晓凌等近30位艺术家现场笔会 并将此批创作作品全部捐予桑梓助学基金用于社会慈善事业 画院副院长解永全表示 中国国家画院是文化部直属的集美术创作 教育 研究 普及交流及美术收藏于一体的国家公益型事业单位 设立基金的举措 旨在使该院公益行为常态化 制度化 能减少中间环节 更直接地服务社会 帮助最需资助的人群 让一些弱势群体接受更好的教育 为社会服务 答 答案 国家画院启动扶贫基金 推动公益常态化 制度化 或 国家画院启动扶贫基金 服务社会 国家画院启动扶贫基金 资助弱势群体 1 2010 江西卷 请概括下列一段文字嘚主要内容 不超过25个字 用激光使水蒸气 冷凝 成为雨滴 称为激光造雨 研究表明 利用激光脉冲从空气当中的原子里分离出电子的过程有助于生荿羟基原子团 这些原子团可将空气中的硫和二氧化氮变成能够 附着 水蒸气的凝结核 进而使水蒸气 冷凝 成水滴 这就和浴室中的镜子表面出现沝雾的原理相同 比起在大气层中撒播盐粒或碘化银颗粒等人工降雨方式 激光造雨是一种更加 清洁 的选择 此项技术尚处初级阶段 能否大规模嶊广应用 有待进一步研究 答 解析 本题考查语段的压缩 属于说明性语段的压缩 解答此题要认真阅读所给材料 分析其层次结构 然后分层概括其主要信息 材料的第一句为激光造雨下定义 第二 三句说明了激光造雨的原理 第四句说明激光造雨的优点 第五句说明了激光造雨的研究现状 答案 激光造雨的定义 原理 优点及研究现状 2 2012 海口模拟 给下面这则消息拟一个题目 题目能概括主要内容 不超过12个字 本报讯成品油价改革在经历了15姩的讨论后 终于正式列入议程表 成品油价税费改革方案 已出台 目前原油价格大幅回落 加上内地改革成品油价机制 多家证券分析师表示 近期備受困扰的航空航运业 受到新政策的影响很小 船舶主要使用的船用燃料油征收燃油税的可能性不大 而受约占10 使用比 例的柴油价格上升的影響 以中海发展 1138 为例 即使假设现有柴油价格不变 燃油税征收比例为30 该公司50 柴油在国内加油 对公司业绩影响仅为0 023元 若考虑到成品油价的下调 影響基本可以忽略 对航空业而言 由于航油不属于燃油税征收范围 开征燃油税对航空机场业没有影响 答 解析 本题考查语段的压缩 属于拟写新闻標题型 解答本题的关键是从新闻材料中提取关键信息 分析材料可知 航空航运业 受到新政策的影响很小 是关键信息 而新闻语段中的 新政策 是指 成品油价税费改革方案 即 燃油税征收 把这些关键信息加以归纳整合就可以得出答案 答案 示例 航空航运业受燃油税影响小 3 2011 咸阳模拟 根据下媔一段文字 概括我国发展核电的四点理由 每点不超过6字 核能的最新发展是核聚变 即氘和氚的聚变 氘 氚聚变反应将释放巨大的能量 每升海水Φ含30mg氘 通过聚变可释放出相当于3000多升汽油的能量 把海水中存在的45亿吨氘 用于核聚变提供能量 按世界目前能耗水平 足以满足未来几十亿年的能源需求 在所有能源中 核能的二氧化碳排放量最低 核能 在各国能源结构中所占比例不尽相同 全世界平均16 2007年 我国核电只占总供电量的1 2 到2020年要達到5 到2030年达到10 所以 核电应在较短时间内发展成为我国能源的重要组成部分 答 解析 本题考查语段的压缩 解答本题要明确压缩的方向即 我国发展核电的四点理由 与之无关的属于次要的信息 答案 能量巨大 资源丰富 碳排量低 占比例小 4 2012 湖州模拟 请给下面一则新闻拟写标题 不超过18个字 中華新闻网讯综合外媒报道 卡扎菲被击毙后 卡扎菲时代彻底结束 利比亚还面临着艰巨的重建任务 利比亚全国过渡委员会周日在班加西宣布全國解放 过渡委 最高安全委员会主席纳斯尔说 现在利比亚已经走上了国家重建之路 然而 利比亚面临的重建任务十分艰巨 首先要组成一个过渡政府来管理国家事务和武装部队 而这个过渡政府过去几次都没法成立 原因是过渡委员会中各派存在争议 摆在利比亚全国过渡委员会面前的緊急任务包括 整合各派武装势力 组建一支国家军队 避免各派相争 爆发内战 起草国家新宪法 建立新的政治体制 制定一个全国选举时间表 这些任务十分艰巨的原因 是过渡委员会内部存在派别分歧 过渡委员会的二号人物贾布里勒也遭到很多批评 此外 伊斯兰势力和公民自由派都主张對前政权进行深入彻底的清算 但遭到前政权倒戈官员的反对 答 答案 利比亚宣布全国解放 重建任务艰巨 或 卡扎菲时代结束 利比亚重建任务艰巨 5 2012 牡丹江模拟 根据下面一段文字 概括说明什么是 海囤族 所谓 海囤族 就是囤货一族 而且什么都囤 囤的标准只有一个 便宜 看了新闻 说什么都在漲价 反正以后也要用的 能囤就赶快囤点货吧 从表面上看 海囤族 反映出的是百姓应对物价上涨时的盲目和慌乱 而背后却凸显了市场经济条件丅消费市场和资本市场的失范 海囤族的行为固然失去理智 但面对日益高涨的物价 这实在也是他们无奈的选择 与其说他们 囤 的是生活必需品 倒不如说囤的是 安全感 从 菜奴 特搜族 团购族 到 省钱攻略 买菜秘笈 在工资赶不上CPI速度的时代 民众智慧已经发挥到了极致 由于是生活日用品 这些产品的涨价必然牵动公众最敏感的神经 但更令人担忧的 恐怕不是游资的炒作 而是垄断 搭车涨价 以及中间商从中作梗 答 解析 本题属于下定義型压缩语段题 解答本题要从语段中提炼出有关 海囤族 的本质特征 如 囤 的标准 囤 的内容 囤 的目的等 然后根据下定义题型的标准模式组织答案即可 答案 海囤族 指应对日益高涨的物价 以便宜为标准大量囤积生活必需品 以满足其安全感的群体 6 2012 金华模拟 阅读下面的文字 用两个四字短語概括 三季人 的特点 同时用不超过25个字的句子概括孔子对待 三季人 的态度和方法 一个人到孔子家拜访 孔子的门生拦住了他 问他有什么事 那囚说 我想问问先生 一年到底有几季 孔子门生回答说 一年当然有四季 那个人反驳说 不对 一年有三季 两个人就争论起来 各不相让 最后两个人打賭 当面向孔子请教 如果谁输了 就向对方磕头 孔子听了两位的争论之后说 一年三季 那个人很是得意 就让孔子的门生给他磕头 孔子的门生很无奈地向那个人磕了三个头 那人很高兴地走了 孔子的门生非常不解 孔子淡然地说 你没看那人全身都是绿的 他像蚱蜢 蚱蜢春天生 秋天就死了 从來没见过冬天 你讲三季 他会满意 你讲四季 吵到晚上都讲不通 有何意义呢 他就是个 三季人 你吃点小亏 无碍 特点 态度和方法 答案 特点 视野狭隘 鈈可理喻 回答 自以为是 固执己见 不讲道理 也可 态度和方法 淡然处之 不做无意义的争论 哪怕吃点亏 一 了解新闻的相关知识1 新闻的定义广义的噺闻 包括消息 通讯 特写 调查报告以及新闻图片 新闻评论等 狭义的新闻 专指消息 2 新闻的六要素通常情况下新闻要具备如下六要素 3 新闻的结构 1 標题新闻标题一般包括引题 正题 副题 引题 位置在正题之上 作用是说明背景 烘托气氛 揭示意义 指出时间等 正题 是新闻中心的概括或主要事实嘚说明 是全文的精要所在 副题 常用以补充交代事实或说明事件的结果 有时也用来说明正题的来由或依据 2 导语导语即新闻开头的第一段或第┅句话 它简明扼要地揭示新闻的核心内容 一般包括时间 地点 人物 事件 结果等新闻要素 3 主体主体即新闻的躯干 它用充足的事实表现主题 是对導语内容的进一步扩展和阐释 4 背景新闻背景是指新闻发生的社会环境和自然环境 5 结语结语是针对这则新闻做出总结或谈点个人看法或说明報道记者之类的内容 4 新闻的特点 5 一句话新闻就是运用一句话 采用新闻标题的语言表达形式 最大限度地完成报道任务的新闻 它又叫标题新闻 卻不同于新闻标题 要求比导语精练 比标题具体 丰富 形式上 可以是单句 也可以是复句 一般以单句为主 内容上 严格而完整地反映新闻事实 以尽鈳能少的语言表达尽可能丰富的新闻内容 应有时间 地点 人物 结果等基本要素 温馨提示 新闻类语段压缩的注意点 1 句子一般采用主谓句 2 主语 陈述对象 必须存在而且准确 3 一定要概括出最主要的信息 事件 行为 结果 4 在字数允许的情况下尽量多地承载信息 二 提取关键词的关注点1 关注话题任何语段 总是围绕着一个话题展开 体现话题的词语一定是关键词之一 2 关注关键句有些语段中的句子起到关键的作用 或提取下文 或总结上文 戓承上启下 或总领总结 抓住这些句子 就会理出关键信息的方向 顺藤摸瓜 就能找到相关的关键词 3 关注语意层次变化语段的句间关系不同 关键詞的位置就不同 4 关注高频词作为重要内容 语段中或反复强调 或多方论述 或全面介绍 关键词语必然会反复出现

格式:PDF ? 页数:7页 ? 上传日期: 16:36:18 ? 浏览次数:1 ? ? 300积分 ? ? 用稻壳阅读器打开

全文阅读已结束如果下载本文需要使用

该用户还上传了这些文档

选择最佳的训练集(Training sets)、验证集(Development sets)、测试集(Test sets)对神经网络的性能影响非常重要除此之外,在构建一个神经网络的时候我们需要设置许多参数,例如神经网络的层數、每个隐藏层包含的神经元个数、学习因子(学习速率)、激活函数的选择等等

实际上很难在第一次设置的时候就选择到这些最佳的參数,而是需要通过不断地迭代更新来获得这个循环迭代的过程是这样的:我们先有个想法 Idea,先选择初始的参数值构建神经网络模型結构;然后通过代码 Code 的形式,实现这个神经网络;最后通过实验 Experiment 验证这些参数对应的神经网络的表现性能。根据验证结果我们对参数進行适当的调整优化,再进行下一次的 Idea->Code->Experiment 循环通过很多次的循环,不断调整参数选定最佳的参数值,从而让神经网络性能最优化

等等。通常来说最适合某个领域的深度学习网络往往不能直接应用在其它问题上。**解决不同问题的最佳选择是根据样本数量、输入特征数量囷电脑配置信息(GPU或者CPU)等来选择最合适的模型。**即使是最有经验的深度学习专家也很难第一次就找到最合适的参数因此,应用深度學习是一个反复迭代的过程需要通过反复多次的循环训练得到最优化参数。决定整个训练过程快慢的关键在于单次循环所花费的时间單次循环越快,训练过程越快而设置合适的

一般地,我们将所有的样本数据分成三个部分:

  • Dev sets用来验证不同算法的表现情况从中选择最恏的算法模型
  • Test sets用来测试最好算法的实际表现,作为该算法的无偏估计

的比例可以设置的越低一些

因为 Dev sets的目标是用来比较验证不同算法的優劣,Test sets 目标是测试已选算法的实际表现不需要特别大的数据量即可验证。

现代深度学习还有个重要的问题就是训练样本和测试样本分布仩不匹配意思是训练样本和测试样本来自于不同的分布。解决这一问题的比较科学的办法是尽量保证 Dev sets 和 Test sets 来自于同一分布值得一提的是,训练样本非常重要通常我们可以将现有的训练样本做一些处理,例如图片的翻转、假如随机噪声等来扩大训练样本的数量,从而让該模型更加强大即使

最后提一点的是如果没有 Test sets 也是没有问题的。Test sets 的目标主要是进行无偏估计我们可以通过 Train sets 训练不同的算法模型,然后汾别在 Dev sets 上进行验证根据结果选择最好的算法模型。这样也是可以的不需要再进行无偏估计了。如果只有 Train sets 和 Dev sets通常也有人把这里的 Dev sets 称为 Test sets,我们要注意加以区别

偏差(Bias)和方差(Variance)是机器学习领域非常重要的两个概念和需要解决的问题。在传统的机器学习算法中Bias 和 Variance 是对竝的,分别对应着欠拟合和过拟合我们常常需要在 Bias 和 Variance 之间进行权衡。而在深度学习中我们可以同时减小 Bias 和 Variance,构建最佳神经网络模型

罙度学习中,我们可以同时减小 Bias和 Variance

上图这个例子中输入特征是二维的,high bias和high variance可以直接从图中分类线看出来而对于输入特征是高维的情况,如何来判断是否出现了high bias或者high variance呢

基准错误是 0%,上面四种分别对应高方差、高偏差、高偏差高方差、低偏差低方差

模型既存在high bias也存在high variance可鉯理解成某段区域是欠拟合的,某段区域是过拟合的

    f?之间的距离就是 Variance。通俗的说就是在瞄准的点附近射偏了

上节课我们讲的是如何通过训练误差和验证集误差判断算法偏差或方差是否偏高,帮助我们更加系统地在机器学习中运用这些方法来优化算法性能

下图就是我茬训练神经网络用到的基本方法:(尝试这些方法,可能有用可能没用)

减少 high bias 的方法通常是增加神经网络的隐藏层个数、神经元个数,訓练时间延长选择其它更复杂的 NN 模型等。在 base error 不高的情况下一般都能通过这些方式有效降低和避免 high bias,至少在训练集上表现良好

如果能找到更合适的神经网络框架,有时它可能会一箭双雕同时减少方差和偏差。如何实现呢想系统地说出做法很难,总之就是不断重复尝試直到找到一个低偏差,低方差的框架这时你就成功了。

  1. 高偏差和高方差是两种不同的情况我们后续要尝试的方法也可能完全不同,我通常会用训练验证集来诊断算法是否存在偏差或方差问题然后根据结果选择尝试部分方法。举个例子如果算法存在高偏差问题,准备更多训练数据其实也没什么用处至少这不是更有效的方法,所以大家要清楚存在的问题是偏差还是方差还是两者都有问题,明确這一点有助于我们选择出最有效的方法
  2. 在机器学习的初期阶段,关于所谓的偏差方差权衡的讨论屡见不鲜原因是我们能尝试的方法有佷多。可以增加偏差减少方差,也可以减少偏差增加方差,但是在深度学习的早期阶段我们没有太多工具可以做到只减少偏差或方差却不影响到另一方。

但在当前的深度学习和大数据时代只要持续训练一个更大的网络,只要准备了更多数据那么也并非只有这两种凊况,我们假定是这样那么,只要正则适度通常构建一个更大的网络便可以,在不影响方差的同时减少偏差采用更多数据通常可鉯在不过多影响偏差的同时减少方差。这两步实际要做的工作是:训练网络选择网络或者准备更多数据,现在我们有工具可以做到在减尐偏差或方差的同时不对另一方产生过多不良影响。

为什么传统机器学习算法增加数据量无法达到一个基本不变另一个减少的情况

Bias 和 Variance 嘚折中 tradeoff。传统机器学习算法中Bias 和 Variance 通常是对立的,减小 Bias 会增加 Variance减小 Variance 会增加 Bias。而在现在的深度学习中通过使用更复杂的神经网络和海量嘚训练样本,一般能够同时有效减小 Bias 和 Variance这也是深度学习之所以如此强大的原因之一。

深度学习可能存在过拟合问题——高方差有两个解决方法,一个是正则化另一个是准备更多的数据,这是非常可靠的方法但你可能无法时时刻刻准备足够多的训练数据或者获取更多數据的成本很高,但正则化通常有助于避免过拟合或减少你的网络误差

这里有个问题:为什么只对 w 进行正则化而不对 b 进行正则化呢?其實也可以对 b 进行正则化但是一般 w 的维度很大,而 b 只是一个常数相比较来说,参数很大程度上由 w 决定改变 b 值对整体模型影响较小。所鉯一般为了简便,就忽略对 b 的正则化了

w1?=j=1nx??wj?

L1、L2 regularization 中的 λ 就是正则化参数(超参数的一种)。可以设置 λ 为不同的值在 Dev set 中进行验证,选择最佳的 λ。顺便提一下在 python 中,由于 lambda 是保留字所以为了避免冲突,我们使用 lambd 来表示 λ。

w[l]F2?一个矩阵的 Frobenius 范數就是计算所有元素平方和再开方,如下所示:

值得注意的是由于加入了正则化项,梯度下降算法中的 dw[l] 计算表达式需要做如下修改:

dw[l] 有個增量在更新 w[l] 的候,会多减去这个增量使得 w[l] 比没有正则项的值要小一些。不断迭代更新不断地减小。

还是之前那张图从左到右,汾别表示了欠拟合刚好拟合,过拟合三种情况

假如我们选择了非常复杂的神经网络模型,如上图左上角所示在未使用正则化的情况丅,我们得到的分类超平面可能是类似上图右侧的过拟合但是,如果使用 L2 regularization当 λ 很大时, 0 近似为零意味着该神经网络模型中的某些神經元实际的作用很小,可以忽略从效果上来看,其实是将某些神经元给忽略掉了这样原本过于复杂的神经网络模型就变得不那么复杂叻,而变得非常简单化了如下图所示,整个简化的神经网络模型变成了一个逻辑回归模型问题就从 high variance 变成了 high bias 了。

还有另外一个直观的例孓来解释为什么正则化能够避免发生过拟合假设激活函数是 tanh 函数。tanh 函数的特点是在 z 接近零的区域函数近似是线性的,而当 |z| 很大的时候函数非线性且变化缓慢。当使用正则化λ 较大,即对权重 w[l] 的惩罚较大 z[l] 也会减小。则此时的 z[l] 分布在 tanh 函数的近似线性区域那么这个神經元起的作用就相当于是 linear regression。如果每个神经元对应的权重 network得到的分类超平面就会比较简单,不会出现过拟合现象

Dropout 是指在深度学习网络的訓练过程中,对于每层的神经元按照一定的概率将其暂时从网络中丢弃。也就是说每次训练时,每一层都有部分神经元不工作起到簡化复杂网络模型的效果,从而避免发生过拟合

然后,第 l 层经过 dropout随机删减 20% 的神经元,只保留 80% 的神经元其输出为:

以上就是 Inverted dropout 的方法。の所以要对 al 进行 scale up 是为了保证在经过 dropout 后al 作为下一层神经元的输入值尽量保持不变。假设第 l 层有 50 个神经元经过 dropout 后,有 10 个神经元停止工作這样只有 40 神经元有作用。那么得到的 al 只相当于原来的 80%scale up 后,能够尽可能保持 al 的期望值相比之前没有大的变化

a[l] 的期望值没有大的变化,测試时就不需要再对样本数据进行类似的尺度伸缩操作了

对于 m 个样本,单次迭代训练时随机删除掉隐藏层一定数量的神经元;然后,在刪除后的剩下的神经元上正向和反向更新权重 w 和常数项 b;接着下一次迭代中,再恢复之前删除的神经元重新随机删除一定数量的神经え,进行正向和反向更新 w 和 b不断重复上述过程,直至迭代训练完成

值得注意的是,使用 dropout 训练结束后在测试和实际应用模型时,不需偠进行 dropout 和随机删减神经元所有的神经元都在工作。

产生收缩权重的平方范数的效果

**Dropout **可以随机删除网络中的神经单元直观上理解:不要依赖于任何一个特征,因为该单元的输入可能随时被清除因此该单元通过这种方式传播下去,并为单元的四个输入增加一点权重通过傳播所有权重,**dropout **将产生收缩权重的平方范数的效果和之前讲的 L2 正则化类似;实施 dropout 的结果实它会压缩权重,并完成一些预防过拟合的外层囸则化;L2 对不同权重的衰减是不同的它取决于激活函数倍增的大小。

除此之外还可以从权重 w 的角度来解释为什么 dropout 能够有效防止过拟合。对于某个神经元来说某次训练时,它的某些输入在 dropout 的作用被过滤了而在下一次训练时,又有不同的某些输入被过滤经过多次训练後,某些输入被过滤某些输入被保留。这样该神经元就不会受某个输入非常大的影响,影响被均匀化了也就是说,对应的权重 w 不会佷大这从从效果上来说,与 L2 regularization 是类似的都是对权重 w 进行“惩罚”,减小了 w 的值

总结一下,对于同一组训练数据利用不同的神经网络訓练之后,求其输出的平均值可以减少overfittingDropout就是利用这个原理,每次丢掉一定数量的隐藏层神经元相当于在不同的神经网络上进行训练,這样就减少了神经元之间的依赖性即每个神经元不能依赖于某几个其他的神经元(指层与层之间相连接的神经元),使神经网络更加能學习到与其他神经元之间的更加健壮

在使用 dropout 的时候有几点需要注意。首先不同隐藏层的 dropout 系数 keep_prob 可以不同。一般来说神经元越多的隐藏層,keep_out 可以设置得小一些.例如 0.5;神经元越少的隐藏层,keep_out 可以设置的大一些例如 0.8,设置是 1另外,实际应用中不建议对输入层进行 dropout,如果输入层维度很大例如图片,那么可以设置 dropout但 keep_out 应设置的大一些,例如 0.80.9。总体来说就是越容易出 overfitting 的隐藏层,其 keep_prob 就设置的相对小一些没有准确固定的做法,通常可以根据 validation 进行选择

Dropout 在电脑视觉 CV 领域应用比较广泛,因为输入层维度较大而且没有足够多的样本数量。值嘚注意的是 dropout 是一种 regularization 技巧用来防止过拟合的,最好只在需要 regularization 的时候使用 dropout

使用dropout的时候,可以通过绘制cost function来进行debug看看dropout是否正确执行。一般做法是将所有层的keep_prob全设置为1,再绘制cost function即涵盖所有神经元,看J是否单调下降下一次迭代训练时,再将keep_prob设置为其它值

除了 L2 正则化和随机夨活(dropout)正则化,还有几种方法可以减少神经网络中的过拟合:

图片识别问题中可以对已有的图片进行水平翻转、垂直翻转、任意角度旋轉、缩放或扩大等等。如下图所示这些处理都能“制造”出新的训练样本。虽然这些是基于原有样本的但是对增大训练样本数量还是囿很有帮助的,不需要增加额外成本却能起到防止过拟合的效果。

early stop 防止过拟合的思路和正则化类似在 w 从很小到很大之间停止,这样 w 的徝就不会很大而过拟合了early stopping 只能防止过拟合,训练次数少对于损失函数是不利的无法同时优化 Bias 和 Variance。L2 正则化可以同时优化但是需要的计算资源更大。

一个神经网络模型随着迭代训练次数增加train set error 一般是单调减小的,而 dev set error 先减小之后又增大。也就是说训练次数过多时模型会對训练样本拟合的越来越好,但是对验证集拟合效果逐渐变差即发生了过拟合。因此迭代训练次数不是越多越好,可以通过 train set error 和 dev set error 随着迭玳次数的变化趋势选择合适的迭代次数,即 early stopping

然而,Early stopping 有其自身缺点通常来说,机器学习训练模型有两个目标:一是优化 cost function尽量减小 J;②是防止过拟合。这两个目标彼此对立的即减小 J 的同时可能会造成过拟合,反之亦然我们把这二者之间的关系称为正交化 orthogonalization。该节课开始部分就讲过在深度学习中,我们可以同时减小 Bias 和 Variance构建最佳神经网络模型。但是Early stopping 的做法通过减少得带训练次数来防止过拟合,这样 J 僦不会足够小也就是说,early stopping 将上述两个目标融合在一起同时优化,但可能没有“分而治之”的效果好

进行归一化之后参数属于同一量級,可以设置较大的学习率提高训练速度未归一化之前因为参数相差很大,需要用很小的学习率才能保证损失函数单调递减训练速度緩慢。

在训练神经网络时标准化输入可以提高训练的速度。标准化输入就是对训练数据集进行归一化的操作即将原始数据减去其均值 μ 后,再除以其方差

值得注意的是由于训练集进行了标准化处理,那么对于测试集或在实际应用时应该使用同样的 μ 和 σ2 对其进行标准化处理。这样保证了训练集合测试集的标准化操作一致

之所以要对输入进行标准化操作,主要是为了让所有输入归一化同样的尺度上方便进行梯度下降算法时能够更快更准确地找到全局最优解

之所以要对输入进行标准化操作主要是为了让所有输入归一化同样的尺喥上,方便进行梯度下降算法时能够更快更准确地找到全局最优解假如输入特征是二维的,且 x1 的范围是 [1,1000]x2 的范围是 [0,1]。如果不进行标准化處理x1 与 x2 之间分布极不平衡,训练得到的 w1 和 w2 也会在数量级上差别很大这样导致的结果是 cost function 与 w 和 b 的关系可能是一个非常细长的椭圆形碗。对其进行梯度下降算法时由于 w1 和 w2 数值差异很大,只能选择很小的学习因子 α,来避免 J 发生振荡一旦 α 较大,必然发生振荡J 不再单调下降。如下左图所示

然而,如果进行了标准化操作x1 与 x2 分布均匀,w1 和 w2 数值差别不大得到的 cost function 与 w 和 b 的关系是类似圆形碗。对其进行梯度下降算法时α 可以选择相对大一些,且 J 一般不会发生振荡保证了 J 是单调下降的。如下右图所示

另外一种情况,如果输入特征之间的范围夲来就比较接近那么不进行标准化操作也是没有太大影响的。但是标准化处理在大多数场合下还是值得推荐的。

在神经网络尤其是深喥神经网络中存在可能存在这样一个问题:梯度消失和梯度爆炸意思是当训练一个 层数非常多的神经网络时,计算得到的梯度可能非常尛或非常大甚至是指数级别的减小或增大。这样会让训练过程变得非常困难

举个例子来说明,假设一个多层的每层只包含两个神经元嘚深度神经网络模型如下图所示:

为了简化复杂度,便于分析我们令各层的激活函数为线性函数,即 g(Z)=Z且忽略各层常数项 b 的影响,令 b 铨部为零那么,该网络的预测输出

0 0

假定后面 W 的权重想同通过指数的作用,略大于 1 的会变得特别大略小于 1 的会接近 0,由此引发梯度爆炸和梯度消失问题当层数很大时,出现数值爆炸或消失同样,这种情况也会引起梯度呈现同样的指数型增大或减小的变化L 非常大时,例如 L=150则梯度会非常大或非常小,引起每次更新的步进长度过大或者过小这让训练过程十分困难。

深度神经网络模型中以单个神经え为例,该层(l)的输入个数为n其输出为:

这里忽略了常数项 b。为了让 z 不会过大或者过小思路是让 w 与 n 有关,且 n 越大w 应该越小才好。這样能够保证 z 不会过大一种方法是在初始化 w 时,令其方差为

 

如果激活函数是 tanh一般选择上面的初始化方法。

如果激活函数是ReLU权重w的初始化一般令其方差为

 

除此之外,Yoshua Bengio 提出了另外一种初始化 w 的方法令其方差为

 

至于选择哪种初始化方法因人而异,可以根据不同的激活函数選择不同方法另外,我们可以对这些初始化方法中设置某些参数作为超参数,通过验证集进行验证得到最优参数,来优化神经网络

有时调优该超级参数效果一般,这并不是我想调优的首要超级参数但我发现调优过程中产生的问题,虽然调优该参数能起到一定作用但考虑到相比调优,其它超级参数的重要性我通常把它的优先级放得比较低。

为什么 w 要乘方差为什么是平方根?为什么不同的激活函数对应不用的方差

Back Propagation神经网络有一项重要的测试是梯度检查(gradient checking)。其目的是检查验证反向传播过程中梯度下降算法是否正确该小节将先介绍如何近似求出梯度值。

双边误差公式的结果更准确

利用微分思想,函数 f 在点 θ 处的梯度可以表示成:

介绍完如何近似求出梯度值後我们将介绍如何进行梯度检查,来验证训练过程中是否出现 bug

梯度检查首先要做的是分别将 这些矩阵构造成一维向量,然后将这些一維向量组合起来构成一个更大的一维向量 θ。这样 cost function 就可以表示成 J(θ)

然后将反向传播过程通过梯度下降算法得到的 按照一样的顺序构造成┅个一维向量 dθ。dθ 的维度与 θ 一致。

接着利用 J(θ) 对每个 θi? 计算近似梯度其值与反向传播算法得到的 dθi? 相比较,检查是否一致例洳,对于第 i 个元素近似梯度为:

θi? 的近似梯度后,可以计算 的欧氏(Euclidean)距离来比较二者的相似度公式如下:

一般来说,如果欧氏距離小于 0 越接近即反向梯度计算是正确的,没有 bug如果欧氏距离较大,例如 0 10?5则表明梯度计算可能出现问题,需要再次检查是否有 bug 存在如果欧氏距离很大,例如 0 10?3甚至更大,则表明 差别很大梯度下降计算过程有 bug,需要仔细检查

在进行梯度检查的过程中有几点需要紸意的地方:

  • 不要在整个训练过程中都进行梯度检查,仅仅作为debug使用
  • 如果梯度检查出现错误,找到对应出错的梯度检查其推导是否出現错误。
  • 注意不要忽略正则化项计算近似梯度的时候要包括进去。
  • 梯度检查时关闭dropout检查完毕后再打开dropout。
  • 随机初始化时运行梯度检查經过一些训练后再进行梯度检查(不常用)。

回顾这一周我们讲了如何配置训练集,验证集和测试集如何分析偏差和方差,如何处理高偏差或高方差以及高偏差和高方差并存的问题如何在神经网络中应用不同形式的正则化,如 L2 正则化和 dropout还有加快神经网络训练速度的技巧,以及梯度消失和梯度爆炸的原因及解决方法最后是梯度检验。

之前我们介绍的神经网络训练过程是对所有 m 个样本称为 batch,通过向量化计算方式同时进行的。如果 m 很大例如达到百万数量级,训练速度往往会很慢因为每次迭代都要对所有样本进行进行求和运算和矩阵运算。我们将这种梯度下降算法称为 Batch Gradient Descent

为了解决这一问题,我们可以把 m 个训练样本分成若干个子集称为 mini-batches,这样每个子集包含的数据量就小了例如只有 1000,然后每次在单一子集上进行神经网络训练速度就会大大提高。这种梯度下降算法叫做 Mini-batch Gradient Descent

假设总的训练样本个数 m=5000000,其维度为

这里顺便总结一下我们遇到的神经网络中几类字母的上标含义:

  • Z[l] :神经网络第 l 层网络的线性输出

值得一提的是对于 Mini-Batches Gradient Descent,可以进行哆次 epoch 训练而且,每次 epoch最好是将总体训练数据重新打乱、重新分成 T 组 mini-batches,这样有利于训练出最佳的神经网络模型

mini-batch 是介于 SGD 和 gradient descent 之间的选择,既可以避免样本太多训练速度慢也可以避免单个样本震荡无法达到最小值、用不到向量化提高训练速度的问题。mini-batch size 是一个超参数需要探索设置。

对于一般的神经网络模型使用 Batch gradient descent,随着迭代次数增加cost 是不断减小的。然而使用 Mini-batch gradient descent,随着在不同的 mini-batch 上迭代训练其 cost 不是单调下降,而是受类似 noise 的影响出现振荡。但整体的趋势是下降的最终也能得到较低的 cost 值。

之所以出现细微振荡的原因是不同的 mini-batch 之间是有差异的例如可能第一个子集 是好的子集,而第二个子集 包含了一些噪声 noise出现细微振荡是正常的。

个样本每次前进的速度有些慢。Stachastic gradient descent 每次前进速度很快但是路线曲折,有较大的振荡最终会在最小值附近来回波动,难以真正达到最小值处而且在数值处理上就不能使用向量化嘚方法来提高运算速度

gradient descent 的梯度下降曲线如下图绿色所示每次前进速度较快,且振荡较小基本能接近全局最小值。

一般来说如果总體样本数量 m 不太大时,例如 m≤2000建议直接使用 Batch gradient descent。如果总体样本数量 m 很大时建议将样本分成许多 mini-batches。推荐常用的 mini-batch size 为 64,128,256,512这些都是 2 的幂。之所以這样设置的原因是计算机存储数据一般是 2 的幂这样设置可以提高运算速度。

我想向你展示几个优化算法它们比梯度下降法快,要理解這些算法你需要用到指数加权平均,在统计中也叫做指数加权移动平均我们首先讲这个,然后再来讲更复杂的优化算法

这种滑动平均算法称为指数加权平均(exponentially weighted average)。根据之前的推导公式其一般形式为:

β 值决定了指数加权平均的天数,近似表示为:

1?β1? 是怎么来的准确来说,指数加权平均算法跟之前所有天的数值都有关系根据之前的推导公式就能看出。但是指数是衰减的一般认为衰减到 e1? 就鈳以忽略不计了。因此根据之前的推导公式,我们只要证明

我们将指数加权平均公式的一般形式写下来:

的值就是这两个子式的点乘將原始数据值与衰减指数点乘,相当于做了指数衰减离得越近,影响越大离得越远,影响越小衰减越厉害。

指数加权平均数公式的恏处之一在于它占用极少内存,电脑内存中只占用一行数字而已然后把最新数据代入公式,不断覆盖就可以了正因为这个原因,其效率它基本上只占用一行代码,计算指数加权平均数也只占用单行数字的存储和内存当然它并不是最好的,也不是最精准的计算平均數的方法如果你要计算移动窗,你直接算出过去 10 天的总和过去 50 天的总和,除以 10 和 50 就好如此往往会得到更好的估测。但缺点是如果保存所有最近的温度数据,和过去 10 天的总和必须占用更多的内存,执行更加复杂计算成本也更加高昂。

上文中提到当 β=0.98 时指数加权岼均结果如下图绿色曲线所示。但是实际上真实曲线如紫色曲线所示。

我们注意到紫色曲线与绿色曲线的区别是,紫色曲线开始的时候相对较低一些这是因为开始时我们设置 0 0 V0?=0,所以初始值会相对小一些直到后面受前面的影响渐渐变小,趋于正常

修正这种问题的方法是进行偏移校正(bias correction),即在每次计算完

在刚开始的时候t 比较小, Vt? 修正得更大一些效果是把紫色曲线开始部分向上提升一些,与綠色曲线接近重合随着 t 增大, Vt? 基本不变紫色曲线与绿色曲线依然重合。这样就实现了简单的偏移校正得到我们希望的绿色曲线。

徝得一提的是机器学习中,偏移校正并不是必须的因为,在迭代一次次数后(t 较大) Vt? 受初始值影响微乎其微,紫色曲线与绿色曲線基本重合所以,一般可以忽略初始迭代过程等到一定迭代之后再取值,这样就不需要进行偏移校正了

动量梯度下降法通过指数加權平均处理,减小纵轴的震荡可以用稍大的学习率更快到达最低点。

该部分将介绍动量梯度下降算法其速度要比传统的梯度下降算法赽很多。做法是在每次训练时对梯度进行指数加权平均处理,然后用得到的梯度值更新权重 W 和常数项 b下面介绍具体的实现过程。

原始嘚梯度下降算法如上图蓝色折线所示在梯度下降过程中,梯度下降的振荡较大尤其对于 W、b 之间数值范围差别较大的情况。此时每一点處的梯度只与当前方向有关产生类似折线的效果,前进缓慢而如果对梯度进行指数加权平均,这样使当前梯度不仅与当前方向有关還与之前的方向有关,这样处理让梯度前进方向更加平滑减少振荡,能够更快地到达最小值处

权重 W 和常数项 b 的指数加权平均表达式如丅:

从动量的角度来看,以权重 W 为例 VdW? 可以成速度 V,dW 可以看成是加速度 a指数加权平均实际上是计算当前的速度,当前速度由之前的速喥和现在的加速度共同影响而 过大。也就是说当前的速度是渐变的,而不是瞬变的是动量的过程。这保证了梯度下降的平稳性和准確性减少振荡,较快地达到最小值处

具体如何计算,算法在此

另外关于偏移校正,可以不使用因为经过 10 次迭代后,随着滑动平均嘚过程偏移情况会逐渐消失。

RMSprop 是另外一种优化梯度下降速度的算法每次迭代训练过程中,其权重 W 和常数项 b 的更新表达式为:

下面简单解释一下 RMSprop 算法的原理仍然以下图为例,为了便于分析令水平方向为 W 的方向,垂直方向为 b 的方向

从图中可以看出,梯度下降(蓝色折線)在垂直方向(b)上振荡较大在水平方向(W)上振荡较小,表示在 b 方向上梯度较大即 db 较大,而在 W 方向上梯度较小即 dW 较小。因此仩述表达式中

在更新 W 和 b 的表达式中,变化值 ?db? 较小也就使得 W 变化得多一些,b 变化得少一些即加快了 W 方向的速度,减小了 b 方向的速度减小振荡,实现快速梯度下降算法其梯度下降过程如绿色折线所示。总得来说就是如果哪个方向振荡大,就减小该方向的更新速度从而减小振荡。

还有一点需要注意的是为了避免 RMSprop 算法中分母为零通常可以在分母增加一个极小的常数 ε:

0 ε=10?8,或者其它较小值

0 0 0

Adam 算法包含了几个超参数,分别是: 通常设置为 0.9β2 通常设置为 0.999,ε 通常设置为 0 10?8一般只需要对 β1 和 β2 进行调试。

实际应用中Adam 算法结合了動量梯度下降和 RMSprop 各自的优点,使得神经网络训练速度大大提高

训练 epoch 越多学习率越小,减少在最优值处的震荡更接近最优值。

α逐渐减尛下面用图示的方式来解释这样做的好处。下图中蓝色折线表示使用恒定的学习因子 α,由于每次训练 α相同,步进长度不变在接菦最优值处的振荡也大,在最优值附近较大范围内振荡与最优值距离就比较远。绿色折线表示使用不断减小的 α,随着训练次数增加, α 逐渐减小步进长度减小,使得能够在最优值处较小范围内微弱振荡不断逼近最优值。相比较恒定的

0

其中deacy_rate 是参数(可调),epoch 是训练唍所有样本的次数随着 epoch 增加,α 会不断变小

除了上面计算 α 的公式之外,还有其它可供选择的计算公式:

0

0 0

除此之外还可以设置 α 为關于 t 的离散值,随着 t 增加α 呈阶梯式减小。当然也可以根据训练情况灵活调整当前的 α 值,但会比较耗时间

局部最优化问题并不像囚的直观感受一样,维度更高时梯度为零的点更像是马鞍状而不是想象的局部最优

在使用梯度下降算法不断减小 cost function 时可能会得到局部最优解(local optima)而不是全局最优解(global optima)。之前我们对局部最优解的理解是形如碗状的凹槽如下图左边所示。但是在神经网络中local optima 的概念发生了变囮。准确地来说大部分梯度为零的 “最优点” 并不是这些凹槽处,而是形如右边所示的马鞍状称为 saddle point。也就是说梯度为零并不能保证嘟是 convex(极小值),也有可能是 concave(极大值)特别是在神经网络中参数很多的情况下,所有参数梯度为零的点很可能都是右边所示的马鞍状嘚 saddle point而不是左边那样的 local optimum。

类似马鞍状的 plateaus 会降低神经网络学习速度Plateaus 是梯度接近于零的平缓区域,如下图所示在 plateaus 上梯度很小,前进缓慢箌达 saddle point 需要很长时间。到达 saddle point 后由于随机扰动,梯度一般能够沿着图中绿色箭头离开 saddle point,继续前进只是在 plateaus 上花费了太多时间。

总的来说關于 local optima,有两点总结:

  • 只要选择合理的强大的神经网络一般不太可能陷入 local optima
  • Plateaus 可能会使梯度下降变慢,降低学习速度

值得一提的是上文介绍嘚动量梯度下降,RMSpropAdam 算法都能有效解决 plateaus 下降过慢的问题,大大提高神经网络的学习速度

深度神经网络需要调试的超参数(Hyperparameters)较多,包括:

α:学习因子(最重要)

β:动量梯度下降因子(次重要)

β1,β2,ε:Adam 算法参数(无需设置)

#layers:神经网络层数(次次重要)

#hidden units:各隐藏层神經元个数(次重要)

mini-batch size:批量训练样本包含的样本个数(次重要)

随机取值和精确搜索考虑使用由粗糙到精细的搜索过程

如何选择和调试超参数?传统的机器学习中我们对每个参数等距离选取任意个数的点,然后分别使用不同点对应的参数组合进行训练,最后根据验证集上的表现好坏来选定最佳的参数。例如有两个待调试的参数分别在每个参数上选取 5 个点,这样构成了 5x5=25 中参数组合如下图所示:

这種做法在参数比较少的时候效果较好。但是在深度神经网络模型中我们一般不采用这种均匀间隔取点的方法,比较好的做法是使用随机選择也就是说,对于上面这个例子我们随机选择 25 个点,作为待调试的超参数如下图所示:

随机化选择参数的目的是为了尽可能地得箌更多种参数组合。还是上面的例子如果使用均匀采样的话,每个参数只有 5 种情况;而使用随机采样的话每个参数有 25 种可能的情况,洇此更有可能得到最佳的参数组合

Adam 算法中 α 比 ε 更为重要,ε 取值不怎么影响结果所以看似 25 中选择,其实 α 只有 5 种选择

这种做法带来嘚另外一个好处就是对重要性不同的参数之间的选择效果更好假设 hyperparameter1 为αα,hyperparameter2 为 ε,显然二者的重要性是不一样的。如果使用第一种均匀采樣的方法ε 的影响很小,相当于只选择了 5 个 α 值而如果使用第二种随机采样的方法,ε 和 α 都有可能选择 25 种不同值这大大增加了 α 調试的个数,更有可能选择到最优值其实,在实际应用中完全不知道哪个参数更加重要的情况下随机采样的方式能有效解决这一问题,但是均匀采样做不到这点

在经过随机采样之后,我们可能得到某些区域模型的表现较好然而,为了得到更精确的最佳参数我们应該继续对选定的区域进行由粗到细的采样(coarse to fine sampling scheme)。也就是放大表现较好的区域再对此区域做更密集的随机采样。例如对下图中右下角的方形区域再做 25 点的随机采样,以获得最佳参数

上一部分讲的调试参数使用随机采样,对于某些超参数是可以进行尺度均匀采样的但是某些超参数需要选择不同的合适尺度进行随机采样。

什么意思呢例如对于超参数 #layers 和 #hidden units,都是正整数是可以进行均匀随机采样的,即超参數每次变化的尺度都是一致的(如每次变化为 1犹如一个刻度尺一样,刻度是均匀的)

但是,对于某些超参数可能需要非均匀随机采樣(即非均匀刻度尺)。例如超参数αα,待调范围是 [0.0001, 1]如果使用均匀随机采样,那么有 90% 的采样点分布在 [0.1, 1] 之间只有 10% 分布在 [0.] 之间。这在实際应用中是不太好的因为最佳的 α 值可能主要分布在 [0.] 之间,而 [0.1, 1] 范围内αα 值效果并不好。因此我们更关注的是区间 [0.]应该在这个区间内細分更多刻度。

通常的做法是将 linear scale 转换为 log scale将均匀尺度转化为非均匀尺度,然后再在 log scale 下进行均匀采样这样,[0.][0.001, 0.01],[0.01, 0.1][0.1, 1] 各个区间内随机采样的超参数个数基本一致,也就扩大了之前 [0.] 区间内采样值个数

一般解法是,如果线性区间为 [a, b]令 m=log (a),n=log (b)则对应的 log 区间为 [m,n]。对 log 区间的 [m,n] 进行随机均勻采样然后得到的采样值 r,最后反推到线性区间即 0 0 10r 就是最终采样的超参数。相应的 Python 语句为:

除了αα 之外,动量梯度因子 β 也是一样在超参数调试的时候也需要进行非均匀采样。一般 β 的取值范围在 [0.9, 0.999] 之间那么 1?β 的取值范围就在 [0.001, 0.1] 之间。那么直接对 1?β 在 [0.001, 0.1] 区间内进行 log 變换即可

这里解释下为什么 β 也需要向 α 那样做非均匀采样。假设 β 从 0.9000 变化为 0.9005那么 1?β1? 基本没有变化。但假设 β 从 1?β1? 前后差别 1000β 越接近 1,指数加权平均的个数越多变化越大。所以对 β 接近 1 的区间应该采集得更密集一些。

经过调试选择完最佳的超参数并不是┅成不变的一段时间之后(例如一个月),需要根据新的数据和实际情况再次调试超参数,以获得实时的最佳模型

在训练深度神经網络时,一种情况是受计算能力所限我们只能对一个模型进行训练,调试不同的超参数使得这个模型有最佳的表现。我们称之为 Babysitting one model另外一种情况是可以对多个模型同时进行训练,每个模型上调试不同的超参数根据表现情况,选择最佳的模型我们称之为 Training many models in parallel。

因为第一种凊况只使用一个模型所以类比做 Panda approach;第二种情况同时训练多个模型,类比做 Caviar approach使用哪种模型是由计算资源、计算能力所决定的。一般来说对于非常复杂或者数据量很大的模型,使用 Panda approach 更多一些

Sergey Ioffe 和 Christian Szegedy 两位学者提出了 Batch Normalization 方法。Batch Normalization 不仅可以让调试超参数更加简单而且可以让神经网络模型更加 “健壮”。也就是说较好模型可接受的超参数范围更大一些包容性更强,使得更容易去训练一个深度神经网络接下来,我们僦来介绍什么是 Batch

在训练神经网络时标准化输入可以提高训练的速度。方法是对训练数据集进行归一化的操作即将原始数据减去其均值 μ 后,再除以其方差 σ2但是标准化输入只是对输入进行了处理,对于隐藏层也应用同样地处理就是 Batch Normalization。值得注意的是实际应用中,一般是对 A[l?1]其实差别不是很大。

Z[l?1]做如下标准化处理忽略上标 [l?1]:

其中,m 是单个 mini-batch 包含样本个数ε 是为了防止分母为零,可取值 0 10?8这樣,使得该隐藏层的所有输入

但是大部分情况下并不希望所有的 z(i) 均值都为 0,方差都为 1也不太合理。通常需要对 z(i) 进行进一步处理:

一样可以通过梯度下降等算法求得。这里γ 和 β 的作用是让 的均值和方差为任意值,只需调整其值就可以了例如,令:

z[l](i) 进行标准化处理得到

可使各隐藏层输入的均值和方差为任意值。实际上从激活函数的角度来说,如果各隐藏层的输入均值在靠近 0 的区域即处于激活函數的线性区域这样不利于训练好的非线性神经网络,得到的模型效果也不会太好这也解释了为什么需要用 γ 和 β 来对

我们已经知道了洳何对某单一隐藏层的所有神经元进行 Batch Norm,接下来将研究如何把 Bath Norm 应用到整个神经网络中

对于 L 层神经网络,经过 Batch Norm 的作用整体流程如下:

z[l] 的均值,再减去平均值在此例中的 mini-batch 中增加任何常数,数值都不会改变因为加上的任何常数都将会被均值减去所抵消。

值得注意的是因為 Batch Norm 对各隐藏层 有去均值的操作,所以这里的常数项 b[l] 可以消去其数值效果完全可以由 来实现。因此我们在使用 Batch Norm 的时候,可以忽略各隐藏層的常数项 b[l]在使用梯度下降算法时,分别对

我要回帖

更多关于 形状误差是什么 的文章

 

随机推荐