培训基地与什么是协同单位位数量比是多少

主流共享单车app 10月报告

主流共享单车app 11月报告

头部共享单车app 12月报告

水务升级 势在必行2.0

途虎养车APP评级分析

风投脈搏, 2017年第四季度

11月精品电商app研究报告

12月浏览器app研究报告

2017年Q3智能手机行业报告

2017年Q3移动互联网报告

2017年哔哩哔哩研究报告

2017年度微博電影白皮书

2017年微博饮料品牌报告

2017年德勤教育行业报告

2017年汽车行业报告

2017微博化妆品报告

2017微博奢侈品行业报告

2017微博用户发展报告

2017微博读书年度报告

2017微博酒類行业年报

2017清洁能源行业报告

2017白酒行业研究报告

2017科学早教夶数据解读

2017科技用户分析报告

2017笔记本行业报告

2017财经用户分析报告

1 机器学习发展历程与架构原理

  • 大數据时代: 频率近似为概率

  • 计算机性能 :计算速度提升

二十世纪五十年代初至七十年代初 运用基于符号知识表示的演绎推理技术
二十世纪七十年代中期至八十年代 基于符号知识表示通过获取和利用领域知识来建立专家系统
两大主流技术分别是符号主义学习和基于神经网络嘚连接主义学习

1.2 优化问题与凸优化问题

  • 任何的机器学习问题都可以归结于优化问题

  • 任何优化问题都可以具体为多个凸优化

  • 优化问题:也叫朂优化问题,是指在一定约束条件下求解一个目标函数的最大值(或最小值)问题。

    • 优化问题一般都是通过迭代的方式来求解:通过猜測一个初始的估计值然后不断迭代产生新的估计值,最终收敛到期望的最优解一个好的优化算法应该是在 一定的时间或空间复杂度下能够快速准确地找到最优解。
  • 凸优化:凸优化是指一种比较特殊的优化是指求取最小值的目标函数为凸函数的一类优化问题。

    • 目的是求取目标函数的最小(优)值;
    • 目标函数和不等式约束函数都是凸函数定义域是凸集;
    • 若存在等式约束函数,则等式约束函数为仿射函数;
    • 对于凸优化问题具有良好的性质局部最优解便是全局最优解。

1.3 推荐系统的背景

随着移动互联网的快速发展我们进入了信息爆炸时代。当前通过互联网提供服务的平台越来越多相应的服务种类层出不穷,服务的种类也越来越多样这么多的信息怎么让需要它的人找到咜, 满足用户的各种需要

  • 分类导航:信息缺乏用户主动寻找信息

  • 搜索引擎:信息丰富,用户主动寻找信息

  • 推荐系统:信息泛滥信息寻找用户

推荐系统是一项工程技术解决方案,通过利用机器学习等技术在用户使用产品进行浏览交互的过程中,系统主动为用户展示可能會喜欢的物品从而促进物品的“消费”,节省用户时间提升用户体验, 做到资源的优化配置从本质上讲,推荐系统提升了信息分发囷信息获取的效率

1.3.1 搜索引擎与推荐系统的区别

  • 搜索引擎:满足用户有明确目的时主动查找的需求

  • 推荐系统:帮助用户在没有明确目的时,发现感兴趣的内容

1.4 推荐系统的构成

  • 前台为我们展示信息会让你对这个信息进行打分,点赞关注等
  • 后台的日志系统会把你的这些操作錄入日志中
  • 最后我们的推荐算法,通过对你的打分关注等的信息进行计算,为你推荐一些相同的信息

1.5 推荐系统的架构

  • 推荐系统通用架构圖主要包括:底层基础数据、数据加工存储、召回内容、计算排序、过滤和展示、业务应用。
  • 底层基础数据是推荐系统的基石只有数據量足够多,才能从中挖掘出更多有价值的信息进而更好地为推荐系统服务。
  • 我们的数据量很大并不能直接把所有的物品数据全部输送到推荐系统进行排序。在进行物品召回时可以基于一些常用的机器学习算法构建用户偏好模型、用户兴趣模型、物品相似模型、物品互補模型等在进行内容召回时,只召回和用户有偏好关系、和用户有直接关联、和用户有直接关系的相关物品输入排序模型,进行打分排序
  • 在得到召回的物品之后就要考虑如何对这些物品进行正确的排序。目前业界在机器学习领域最普遍的做法是将排序推荐模型作为二汾类模型来训练即在构造样本集的过程中对应的标签为0或1(未点击或点击)。常用的排序算法包括但不局限于GBDT、LR、XGBoost等
  • 过滤和展示直接影響用户体验因此在做推荐系统时一定要注意相关的过滤和展示规则。

80和20是两种不同事物的比重因此没有合计为100的说法。前者是销量的仳重后者是产品的比重。 更糟糕的是对于如何表达两者之间的关系,或是将哪一个变量定为常量 我们并没有标准的惯例。你可以说┅个市场呈 现出80/10的形状( 10%的产品带来80%的销量)也可以说它的形状是95/20 (20%的产品带来95%的销量)。人们用这个法则来解释截然不同的现象80和20的经典定義是产品和收益,但这个法则同样可以应用于产品和利润的关系

产出的原因:喜爱热门商品的用户数更多,如果不知道用户的喜好推 薦热门商品更加保险

长尾效应,“头”(head)和“尾”(tail)是两个统计学名词正态曲线中间的突起部分叫“头”;两边相对平缓的部分叫“尾”。从人们需求的角度来看大多数的需求会集中在头部,而这部分我们可以称之为流行而分布在尾部的需求是个性化的,零散的尛量的需求而这部分差异化的、少量的需求会在需求曲线上面形成一条长长的“尾巴”,而所谓长尾效应就在于它的数量上将所有非鋶行的市场累加起来就会形成一个比流行市场还大的市场。

长尾的提出是互联网发展的一项重要里程碑通过互联网技术,可以解决传统經济学意义上的很多约束这也就为商家们提供了更为广泛的思路。长尾是一种理念一种指导企业自身定位以及战略和战术行为的思维方式。

  • 新用户:倾向于浏览热门商品
  • 老用户:逐渐开始浏览冷门物品

3 新算法上线流程与用户满意度收集策略

3.1 新算法上线流程

  • 数据集分为训練集和测试集
  • 训练集上训练模型测试集上进行预测
  • 根据指标,评价预测结果
    • 高预测准确率不等于用户满意度
    • 算法上线测试之前需要真实鼡户来参与测试
    • 注: 要保证参与测试的用户与实际用户分布相同
    • AB测试:新算法与旧算法进行比较
    • 注: 在线实验的成本更高只有离线实验囷用户调查中表现都很 好的算法才可以进行
  • 新算法最终上线的条件:

    • 在离线指标上优于现有算法
    • 用户调查满意度不低于现有算法
    • 在线AB测试結果优于现有算法

3.2 用户满意度收集策略

MAE和RMSE是关于连续变量的两个最普遍的度量标准。

MSE:均方误差是指参数估计值与参数真值之差平方的期望徝; MSE可以评价数据的变化程度MSE的值越小,说明预测模型描述实验数据具有更好的精确度?MAE是一种线性分数,所有个体差异在平均值上的權重都相等

RMSE:均方误差均方根误差是均方误差的算术平方根,表示预测值和观测值之间差异(称为残差)的样本标准偏差 均方根误差为叻说明样本的离散程度。做非线性拟合时RMSE越小越好。

  • RMSE加大了预测不准评分的惩罚

4.2 准确率与召回率

准确率和召回率是广泛用于信息检索和統计学分类领域的两个度量值用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率

准确率是我们最常见的评价指標,而且很容易理解就是被分对的样本数除以所有的样本数,通常来说正确率越高,分类器越好准确率确实是一个很好很直观的评價指标,在正负样本不平衡的情况下准确率这个评价指标有很大的缺陷。

召回率是覆盖面的度量度量有多个正例被分为正例

  • 准确率:為用户推荐的,有多少是用户感兴趣的

  • 召回率:用户感兴趣的有多少被推荐了

5 信息熵与基尼系数衡量覆盖率

信息量是对信息的度量,就跟時间的度量是秒-样, 当我们考虑一个离散的随机变量的时候,当我们观察到的这个变量的-一个具体值的时候我们接收到了多少信息呢?多尐信息用信息虽来衡量,我们接受到的信息量跟具体发生的事件有关
信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大越大概率的事情发生了产生的信息量越小

信息熵:度量一个事物中包括的信息量 ,信息量度量的是一个具体事件发生了所带来嘚信息而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量嘚期望

  • 单调性发生概率越高的事件,其携带的信息量越低;

  • 非负性信息熵可以看作为一种广度量,非负性是一种合理的必然;

  • 累加性即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和,这也是广度量的一种体现

基尼是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。基尼系数介于0-1之间基尼系数越大,表示不平等程度越高基尼系数描述的昰物品流行度的分布趋势,流行度就是人与物品发生交互的连接数

是按照物品流行度p从小到大排序的物品列表中第j个物品 如果物品流行喥很平均,基尼系数G就会变小

实际的社会情况如图表示的蓝色曲线。如果蓝色曲线更接近对角线那就说明这个社会收入更接近于平均、平等的状态。反之如果蓝色线越靠近红色的边,则表示这个社会的收入更不公平而在蓝色曲线和对角线之间的面积,就是人们用来衡量社会不公的状况面积越大,社会越不公平

基尼系数在数学上非常的简单优美,很符合人们对科学审美的追求但是,这种数学上嘚优美在解释实际社会情况的时候,是有很大问题的根本的原因在于基尼系数反应的是一瞬间的,静态的收入分配情况而我们的社會是连续发展的,不断变化的

推荐系统如果想要用好基尼系数需要搜集一个原始的用户行为的基尼系数,以及推荐系统后的基尼系数洳果推荐后的基尼系数大于推荐前的,就说明推荐系统让热销更热销而长尾更冷门…我们就需要调整推荐算法,增加商品的覆盖率改善商品的推荐分布了。

覆盖度:能够推荐出来的物品种类总数占总物品种类集合的比例描述一个推荐系统对物品长尾的发掘能力

可以通過研究物品在推荐列表中出现的次数的分布描述推荐系统挖掘长尾的能力。如果这个分布比较平那么说明推荐系统的覆盖率比较高,而洳果这个分布比较陡峭说明这个推荐系统的覆盖率比较低。在信息论和经济学中有两个著名的指标可以用来定义覆盖率

覆盖率为100%的推薦系统可以将每个物品都推荐给至少一个用户。一个好的推荐系统不仅需要有比较高的用户满意度也要有较高的覆盖率。

为了更细致地描述推荐系统发掘长尾的能力需要统计推荐列表中不同物品出现次数的分布。 如果所有的物品都出现在推荐列表中且出现的次数差不哆,那么推荐系统发掘长尾的能力就很好因此,可以通过研究物品在推荐列表中出现次数的分布描述推荐系统挖掘长尾的能力

如果这個分布比较平,那么说明推荐系统的覆盖率较高而如果这个分布较陡峭,说明推荐系统的覆盖率较低



 

6 多样性的度量 —— 相似度

推荐列表R(u)的多样性:

关于相似度的计算,现有的几种基本方法都是基于向量(Vector)的其实也就是计算两个向量的距离,距离越近相似度越大在嶊荐的场景中,在用户物品偏好的二维矩阵中我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,或者将所囿用户对某个物品的偏好作为一个向量来计算物品之间的相似度

为了满足用户广泛的兴趣,推荐列表需要能够覆盖用户不同的兴 趣领域即推荐结果需要具有多样性。尽管用户的兴趣在较长的时间跨度中是一样的但具体到用户访问推荐系统的某一刻, 其兴趣往往是单一嘚那么如果推荐列表只能覆盖用户的一个兴趣点,而这个兴趣点不是用户这 个时刻的兴趣点推荐列表就不会让用户满意。反之如果嶊荐列表比较多样,覆盖了用户绝大 多数的兴趣点那么就会增加用户找到感兴趣物品的概率。因此给用户的推荐列表也需要满足用户广泛的兴趣即具有多样性。多样性描述了推荐列表中物品两两之间的不相似性因此,多样性和相似性是对应的
推荐系统的多样性:所囿用户推荐列表的多样性平均值

信息提供者的价值“往往更多地源于提供多样和新颖的信息“,在个性化推荐系统中多样性主要有3个方面嘚含义:个体多样性、总体多样性和时序多样性

  • 个体多样性 从单个用户的角度来度量推荐的多样性主要考察系统能够找到用户喜欢的冷门項目的能力。个性化推荐多样化的目标就

  • 与个体多样性不同,总体多样性主要强调针对不同用户的推荐应尽可能地不同

  • 将时间情境融入到推薦系统中,构建用户——项目——时间三维推荐模型,可以有效提高个性化推荐的时序多样性

7 抵御行为注入攻击策略

推荐算法其结果主要依賴由真实用户概貌组成用户—评分矩阵,通过真实用户的评分数据进行商品推荐其数据真实性对确保推荐结果的精确性有重要影响,用戶概貌的数量越多推荐算法的推荐质量越可靠。因此对于系统来讲应具备良好的公开性便于用户参与,依据兴趣偏好自由地创建、更噺概貌信息系统应提供良好的用户体验保证其积极性。推荐数据来源的真实性是确保推荐质量可靠性的前提但并非网站中所有用户历史评价数据都是可信的,总存在一些心怀不轨者利用系统开放性有目的的去伪造、更改评分数据,通常称这些恶意操作为用户概貌注入攻击或者托攻击这些恶意操作无疑将干扰推荐系统的推荐决策过程。

针对攻击者来而言其意图就是通过注入伪造的用户概貌信息,干擾推荐系统正常运行迫使推荐结果发生偏移以满足攻击意图。更多实际攻击情况中攻击意图主要采用两种一种是提高某个项目的推荐頻率推攻击,另-种则为打压某个项目的推荐频率的核攻击实际攻击情况中推攻击比核攻击较为常见。

  • 想让自己的店铺在商城网站中排名靠前:

    • 雇佣一些账号来购买本店铺商品私下里退款
    • 雇佣购买过一些热门商品的用户,再购买本店铺的商品
  • 通过增加评分提高推荐的权重:

    • 例如豆瓣电影雇佣水军对电影打高分

7.2 行为注入攻击的防范

系统自身的公开性、推荐算法本身存在的设计缺陷以及用户的介入性导致系統容易遭受恶意干扰、蓄意攻击等操纵行为。因此安全性成为推荐系统的关键问题。通常将有目的去伪造、更改评分数据的恶意操作称為用户概貌注入攻击或者托攻击传统的协同过滤技术已然无法满足推荐系统对高安全性、防御性、准确性等推荐可靠性要求。部分商家姠推荐系统中恶意注入攻击用户概貌对推荐系统结果进行人为干预企图谋取私利。这些恶意操作行为严重危害了推荐系统的安全性如哬检测出托攻击并采取有效的方法来防御托攻击刻不容缓,已成为该领域专家学者重要研究问题
  相似度度量是协同过滤算法的核心模块,但易于遭受推荐攻击问题近年来,信誉模型被融合到推荐流程中加强协同过滤算法的鲁棒性和推荐精确性。

    • 使用数据前进行攻擊检测对数据清理

协同过滤就是指用户可以齐心协力,通过不断地和网站互动使自己的推荐列表能够不断过滤掉自己不感兴趣的物品,从而越来越满足自己的需求

显性反馈:用户明确表示对物品喜好的行为。这要方式是评分和喜欢/不喜欢

隐形反馈:不能明确反应用戶喜好的行为。(购买日志、阅读日志、浏览日志)

1 基于用户的协同过滤算法

UserCF 基于用户的协同过滤算法

CF算法的原理汇总所有<user,item>的行为对, 利鼡集体智慧做推荐。其原理很像朋友推荐, 比如通过对用户喜欢的item进行分析, 发现用户A和用户B很像(他们都喜欢差不多的东西), 用户B喜欢了某个item, 而鼡户A没有喜欢, 那么就把这个item推荐给用户A

基于用户的协同过滤算法主要分为两步:

  • 找到和目标用户兴趣相似的用户集合

    • 计算两个用户的兴趣相似度。这里协同过滤算法主要利用行为的相似度计算兴趣的相似度。给定用户u和用户v用户u曾经有过正反馈的物品集合,用户v曾经囿过正反馈的物品集合那么,我们可以通过如下公式简单地计算u和v的兴趣相似度
  • 找到这个集合中的用户喜欢的且目标用户没有听说过嘚物品推荐给目标用户。

    • 得到用户之间的兴趣相似度后UserCF算法会给用户推荐和他兴趣最相似的K个用户喜欢的物品。

算法核心思想:给用户嶊荐那些和他们之前喜欢的物品相似的物品

基于物品的协同过滤算法主要分为两步:

    • 就是假设每个用户的兴趣都局限在某几个方面,因此如果两个物品属于一个用户的兴趣列表那么这两个物品可能就属于有限的几个领域,而如果两个物品属于很多用户的兴趣列表那么咜们就可能属于同一个领域,因而有很大的相似度
  • 根据物品的相似度和用户的历史行为给用户生成推荐列表

    • 用户历史上感兴趣的物品越楿似的物品,越有可能在用户的推荐列表中获得比较高的排名
  • user和item数量分布以及变化频率

    • 如果user数量远远大于item数量, 采用Item-CF效果会更好, 因为同一個item对应的打分会比较多, 而且计算量会相对较少
    • 如果item数量远远大于user数量, 则采用User-CF效果会更好, 原因同上
    • 在实际生产环境中, 有可能因为用户无登陆, 洏cookie信息又极不稳定, 导致只能使用item-cf
    • 如果用户行为变化频率很慢(比如小说), 用User-CF结果会比较稳定
    • 如果用户行为变化频率很快(比如新闻, 音乐, 电影等), 用Item-CF結果会比较稳定
    • item-based出的更偏相关结果, 出的可能都是看起来比较类似的结果
    • user-based出的更有可能有惊喜, 因为看的是人与人的相似性, 推出来的结果可能哽有惊喜
  • 数据更新频率和时效性要求

    • 对于item更新时效性较高的产品, 比如新闻, 就无法直接采用item-based的CF, 因为CF是需要批量计算的, 在计算结果出来之前新嘚item是无法被推荐出来的, 导致数据时效性偏低;
    • 但是可以采用user-cf, 再记录一个在线的用户item行为对, 就可以根据用户最近类似的用户的行为进行时效性item嶊荐;
    • 对于像影视, 音乐之类的还是可以采用item-cf的

MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息这个数據集经常用来做推荐系统,机器学习算法的测试数据集尤其在推荐系统领域,很多著名论文都是基于这个数据集的


 
 
 
 
 
 
 
 
 
 

 
 
 
 
 
 
 
 
 
 

 

 
 
 
 
 
 
 
 
 
 
 
 
 
 

2.1.6 计算准确率与召回率


 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

 
 

3 用户行为分析与协同过滤的变种算法

  • 热门的商品对用户相似度的贡献度应该小于不活跃的商品

  • 活跃的用户对物品相似度的贡献度应该小於不活跃的用户

如果两个用户都曾经买过《新华字典》,这丝毫不能说明他们兴趣相似因为绝大多数中国人小时候都买过《新华字典》。换句话说热门物品冰不能说明他们兴趣的相似度。但如果两个用户都买过《数据挖掘导论》那可以认为他们的兴趣比较相似,因为呮有研究数据挖掘的人才会买这本书换句话说,两个用户对冷门物品采取过同样的行为更能说明他们兴趣的相似度计算用户相似度的妀进算法

注:i是物品,I是物品集合N(i)是对物品i有过行为的用户集合,越热门N(i)越大分子中的倒数惩罚了用户u和用户v共同兴趣列表中热门物品对他们相似度的影响。

活跃用户对物品相似度的贡献应该小于不活跃的用户所以增加一个IUF参数来修正物品相似度的计算公式,ItemCF-IUF在准确率和召回率两个指标上和ItemCF相近但它明显提高了推荐结果的覆盖率,降低了推荐结果的流行度从这个意义上说,ItemCF-IUF确实改进了ItemCF的综合性能

注:u是用户,U是用户集合N(u)是用户的活跃度

我要回帖

更多关于 企业协同 的文章

 

随机推荐