fb注册不了重复了很多次但是苹果换电池还是不行行

在可重复调用的FB中怎样正常使用定时器? -- 廖老师的博客 -- 工控网博客
我编写的教材《S7-200 SMART PLC编程及应用》(第二版)出版了,该书按S7-200 SMART的V2.0硬件和软件改写,有40多个实验的指导书。
21:58:41 | Author: 廖老师 ]
萧⑨郎:在S7-300重复调用的FB中不能直接使用Txx定时器,需要使用定时器的时候可以使用IEC定时器(比如延时导通定时器SFB4,使用方法是建个数据类型为SFB4的静态变量即可),也可以建个数据类型为Timer的输入变量,然后在FB外填入定时器编号。个人建议使用后面这种方法,因为使用IEC定时器虽然可以解决多次调用的FB中使用定时器问题,但是同时也导致了程序体积的增加。尤其当该FB中使用多个定时器,且该FB调用很多次的时候,这时程序体积的增加就很明显了。当然,这是在Timer数量足够的情况下。shine: 关于定时器,要是我,会通过多重背景调用IEC定时器,而不是通过输入参数传递定时器到FB内。这样更适合标准化程序。如果多重背景使用IEC定时器,那么已经把定时器封装到FB内部了,调用者不需要关心该用哪个定时器这些东西。另外,如果这个FB被另外一个需要多次调用的FB调用时,传递参数是一个麻烦的事情。下面是我的回帖:说得有道理,可能这就是S7-1200没有S7定时器、只有IEC定时器的原因。
标准化有个层次的问题,有标准化的螺丝钉,也有标准化的计算机配件比如说硬盘、主板。多重背景是层次比较高的标准化。
标准化不能妨碍灵活性,比如说应能修改多重背景中IEC定时器的时间预置值。FC在ob1中可否如Fb般重复调用呢?_百度知道
FC在ob1中可否如Fb般重复调用呢?
fc不需要背景数据块,也没有stat变量,请问如何区别使用fc与fb呢?在不同的条件下,fc在ob1中可否重复使用?...
fc不需要背景数据块,也没有stat变量,请问如何区别使用fc与fb呢?在不同的条件下,fc在ob1中可否重复使用?
答题抽奖
首次认真答题后
即可获得3次抽奖机会,100%中奖。
匿名用户知道合伙人
FB/FC都可以重复调用,但是我在多处调用FC时也出现的问题,特别是多处同时调用时,你出现什么问题啊,一般是fc定义变量的类型不对.把你出现的问题说出来别人才能给相应的回答.
匿名用户知道合伙人
FCFB本来就是为了多次调用而产生的你说能不能调用呢区别你在论坛上搜索一下吧记得有一个帖子讨论过
匿名用户知道合伙人
FBFC都可以重复调用FB也不是非得有DB不要误导!
为你推荐:
其他类似问题
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。魔兽世界25人FB进度和10人FB进度还有H模式的进度会重复么_百度知道
魔兽世界25人FB进度和10人FB进度还有H模式的进度会重复么
比如我刷了10人的PTHY。还能去25人的么。然后还能不能去H模式的。...
比如我刷了10人的PTHY。还能去25人的么。然后还能不能去H模式的。
答题抽奖
首次认真答题后
即可获得3次抽奖机会,100%中奖。
sincycai知道合伙人
采纳数:56
获赞数:69
可以,只要不是打了10H模式转25H模式就能进行更换FB模式但是火源的话就不能打HRAG了,除了拉格纳罗斯外其他BOSS可以进行英雄模式和普通模式的更换。拉格纳罗斯只能打普通模式了.
xiaodoule知道合伙人
采纳数:156
获赞数:594
擅长:暂未定制
不能 现在是10人25人共CD。同人数PT和H也是共CD。
madgoe知道合伙人
采纳数:371
获赞数:386
4种副本模式共享CD
dota1200知道合伙人
采纳数:481
获赞数:4531
其他1条回答
为你推荐:
其他类似问题
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。&figure&&img src=&https://pic3.zhimg.com/v2-300a89d88f2aac4aaa4f5ea122c9ad23_b.jpg& data-rawwidth=&960& data-rawheight=&640& class=&origin_image zh-lightbox-thumb& width=&960& data-original=&https://pic3.zhimg.com/v2-300a89d88f2aac4aaa4f5ea122c9ad23_r.jpg&&&/figure&&blockquote&本文由 「&b&AI前线&/b&」原创,原文链接:&a href=&https://link.zhihu.com/?target=http%3A//t.cn/RQhLnS7& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&深度学习大行其道,个性化推荐如何与时俱进?&/a&&br&作者|携程基础业务研发部&br&编辑|Emily&/blockquote&&p&&b&AI 前线导读:”&/b&携程作为国内领先的 OTA,每天向上千万用户提供全方位的旅行服务,如何为如此众多的用户发现适合自己的旅游产品与服务,挖掘潜在的兴趣,缓解信息过载,个性化推荐系统与算法在其中发挥着不可或缺的作用。而 OTA 的个性化推荐一直也是个难点,没有太多成功经验可以借鉴,本文分享了携程在个性化推荐实践中的一些尝试与摸索。”&/p&&p&&br&&/p&&p&推荐流程大体上可以分为 3 个部分,召回、排序、推荐结果生成,整体的架构如下图所示。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-403cd31f3e50d232ea87_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&748& data-rawheight=&395& class=&origin_image zh-lightbox-thumb& width=&748& data-original=&https://pic3.zhimg.com/v2-403cd31f3e50d232ea87_r.jpg&&&/figure&&p&召回阶段,主要是利用数据工程和算法的方式,从千万级的产品中锁定特定的候选集合,完成对产品的初步筛选,其在一定程度上决定了排序阶段的效率和推荐结果的优劣。业内比较传统的算法,主要是 CF[1][2]、基于统计的 Contextual 推荐和 LBS,但近期来深度学习被广泛引入,算法性取得较大的提升,如:2015 年 Netflix 和 Gravity R&D Inc 提出的利用 RNN 的 Session-based 推荐 [5],2016 年 Recsys 上提出的结合 CNN 和 PMF 应用于 Context-aware 推荐 [10],2016 年 Google 提出的将 DNN 作为 MF 的推广,可以很容易地将任意连续和分类特征添加到模型中 [9],2017 年 IJCAI 会议中提出的利用 LSTM 进行序列推荐 [6]。2017 年携程个性化团队在 AAAI 会议上提出的深度模型 aSDAE,通过将附加的 side information 集成到输入中,可以改善数据稀疏和冷启动问题 [4]。&/p&&p&对于召回阶段得到的候选集,会对其进行更加复杂和精确的打分与重排序,进而得到一个更小的用户可能感兴趣的产品列表。携程的推荐排序并不单纯追求点击率或者转化率,还需要考虑距离控制,产品质量控制等因素。相比适用于搜索排序,文本相关性检索等领域的 pairwise 和 listwise 方法,pointwise 方法可以通过叠加其他控制项进行干预,适用于多目标优化问题。工业界的推荐方法经历从线性模型+大量人工特征工程 [11] -& 复杂非线性模型 -& 深度学习的发展。Microsoft 首先于 2007 年提出采用 Logistic Regression 来预估搜索广告的点击率 [12],并于同年提出 OWLQN 优化算法用于求解带 L1 正则的 LR 问题 [13],之后于 2010 年提出基于 L2 正则的在线学习版本 Ad Predictor[14]。Google 在 2013 年提出基于 L1 正则化的 LR 优化算法 FTRL-Proximal[15]。2010 年提出的 Factorization Machine 算法 [17] 和进一步 2014 年提出的 Filed-aware Factorization Machine[18] 旨在解决稀疏数据下的特征组合问题,从而避免采用 LR 时需要的大量人工特征组合工作。阿里于 2011 年提出 Mixture of Logistic Regression 直接在原始空间学习特征之间的非线性关系 [19]。Facebook 于 2014 年提出采用 GBDT 做自动特征组合,同时融合 Logistic Regression[20]。近年来,深度学习也被成功应用于推荐排序领域。Google 在 2016 年提出 wide and deep learning 方法 [21],综合模型的记忆和泛化能力。进一步华为提出 DeepFM[15] 模型用于替换 wdl 中的人工特征组合部分。阿里在 2017 年将 attention 机制引入,提出 Deep Interest Network[23]。携程在实践相应的模型中积累了一定的经验,无论是最常用的逻辑回归模型(Logistic Regression),树模型(GBDT,Random Forest)[16],因子分解机(Factorization Machine),以及近期提出的 wdl 模型。同时,我们认为即使在深度学习大行其道的今下,精细化的特征工程仍然是不可或缺的。&/p&&p&基于排序后的列表,在综合考虑多样性、新颖性、Exploit & Explore 等因素后,生成最终的推荐结果。本文之后将着重介绍召回与排序相关的工作与实践。&/p&&p&&br&&/p&&p&&b&数据&/b& &/p&&p&&b&机器学习=数据+特征+模型&/b&&/p&&p&在介绍召回和排序之前,先简单的了解一下所用到的数据。携程作为大型 OTA 企业,每天都有海量用户来访问,积累了大量的产品数据以及用户行为相关的数据。实际在召回和排序的过程中大致使用到了以下这些数据:&/p&&ul&&li&产品属性:产品的一些固有属性,如酒店的位置,星级,房型等。&/li&&li&产品统计:比如产品一段时间内的订单量,浏览量,搜索量,点击率等。&/li&&li&用户画像:用户基础属性,比如年纪,性别,偏好等等。&/li&&li&用户行为:用户的评论,评分,浏览,搜索,下单等行为。&/li&&/ul&&p&值得注意的是,针对统计类信息,可能需要进行一些平滑。例如针对历史 CTR 反馈,利用贝叶斯平滑来预处理。&/p&&p&&b&召回&/b&&/p&&p&召回阶段是推荐流程基础的一步,从成千上万的 Item 中生成数量有限的候选集,在一定程度上决定了排序阶段的效率和推荐结果的优劣。而由 OTA 的属性决定,用户的访问行为大多是低频的。这就使得 user-item 的交互数据是极其稀疏的,这对召回提出了很大的挑战。在业务实践中,我们结合现有的通用推荐方法和业务场景,筛选和摸索出了几种行之有效的方法:&/p&&p&&b&Real-time Intention&/b&&/p&&p&我们的实时意图系统可以根据用户最近浏览下单等行为,基于马尔科夫预测模型推荐或者交叉推荐出的产品。这些候选产品可以比较精准的反应出用户最近最新的意愿。&/p&&p&&b&Business Rules&/b&&/p&&p&业务规则是认为设定的规则,用来限定推荐的内容范围等。例如机票推酒店的场景,需要通过业务规则来限定推荐的产品只能是酒店,而不会推荐其他旅游产品。&/p&&p&&b&Context-Based&/b&&/p&&p&基于 Context 的推荐场景和 Context 本身密切相关,例如与季候相关的旅游产品(冬季滑雪、元旦跨年等)。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-4cd412e6808fca877fa8_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&506& data-rawheight=&800& class=&origin_image zh-lightbox-thumb& width=&506& data-original=&https://pic2.zhimg.com/v2-4cd412e6808fca877fa8_r.jpg&&&/figure&&figure&&img src=&https://pic1.zhimg.com/v2-3cb07c307070bbe7fbe99a_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&505& data-rawheight=&800& class=&origin_image zh-lightbox-thumb& width=&505& data-original=&https://pic1.zhimg.com/v2-3cb07c307070bbe7fbe99a_r.jpg&&&/figure&&p&&b&LBS&/b&&/p&&p&基于用户的当前位置信息,筛选出的周边酒店,景点,美食等等,比较适用于行中场景的推荐。地理位置距离通过 GeoHash 算法计算,将区域递归划分为规则矩形,并对每个矩形进行编码,筛选 GeoHash 编码相似的 POI,然后进行实际距离计算。&/p&&p&&b&Collaborative Filtering&/b&&/p&&p&协同过滤算法是推荐系统广泛使用的一种解决实际问题的方法。携程个性化团队在深度学习与推荐系统结合的领域进行了相关的研究与应用,通过改进现有的深度模型,提出了一种深度模型 aSDAE。该混合协同过滤模型是 SDAE 的一种变体,通过将附加的 side information 集成到输入中,可以改善数据稀疏和冷启动问题,详情可以参见文献 [4]。&/p&&p&&b&Sequential Model&/b&&/p&&p&现有的矩阵分解 (Matrix Factorization) 方法基于历史的 user-item 交互学习用户的长期兴趣偏好,Markov chain 通过学习 item 间的 transition graph 对用户的序列行为建模 [3]。事实上,在旅游场景下,加入用户行为的先后顺序,从而能更好的反映用户的决策过程。我们结合 Matrix Factorization 和 Markov chain 为每个用户构建个性化转移矩阵,从而基于用户的历史行为来预测用户的下一行为。在旅游场景中,可以用来预测用户下一个目的地或者 POI。&/p&&p&除此之外,也可以使用 RNN 来进行序列推荐,比如基于 Session 的推荐 [5],使用考虑时间间隔信息的 LSTM 来做下一个 item 的推荐等 [6]。&/p&&p&此外,一些常见的深度模型 (DNN, AE, CNN 等)[7][8][9][10] 都可以应用于推荐系统中,但是针对不同领域的推荐,需要更多的高效的模型。随着深度学习技术的发展,相信深度学习将会成为推荐系统领域中一项非常重要的技术手段。以上几种类型的召回方法各有优势,在实践中,针对不同场景,结合使用多种方法,提供给用户最佳的推荐,以此提升用户体验,增加用户粘性。&/p&&p&&br&&/p&&p&&b&排序&/b&&/p&&p&以工业界在广告、搜索、推荐等领域的实践经验,在数据给定的条件下,经历了从简单线性模型+大量人工特征工程到复杂非线性模型+自动特征学习的演变。在构建携程个性化推荐系统的实践过程中,对于推荐排序这个特定问题有一些自己的思考和总结,并将从特征和模型这两方面展开。&/p&&p&&b&Model&/b&&/p&&p&个性化排序模型旨在利用每个用户的历史行为数据集建立其各自的排序模型,本质上可以看作多任务学习 (multi-task learning)。事实上,通过加入 conjunction features,也就是加入 user 和 product 的交叉特征,可以将特定的 multi-task 任务简化为单任务模型。梳理工业界应用的排序模型,大致经历三个阶段,如下图所示:&/p&&figure&&img src=&https://pic3.zhimg.com/v2-d1afac5d4e_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&800& data-rawheight=&445& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&https://pic3.zhimg.com/v2-d1afac5d4e_r.jpg&&&/figure&&p&&br&&/p&&p&本文并不准备详细介绍上图中的算法细节,感兴趣的读者可以查看相关论文,以下几点是我们的一些实践经验和体会。&/p&&ul&&li&在实践中选用以 LR 为主的模型,通过对数据离散化、分布转换等非线性处理后使用 LR。一般的,采用 L1 正则保证模型权重的稀疏性。在优化算法的选择上,使用 OWL-QN 做 batch learning,FTRL 做 online learning。&/li&&li&实践中利用因子分解机(Factorization Machine)得到的特征交叉系数来选择喂入 LR 模型的交叉特征组合,从而避免了繁杂的特征选择工作。一般的受限于模型复杂度只进行二阶展开。对于三阶以上的特征组合可以利用基于 mutual information 等方法处理。已有针对高阶因子分解机(High Order FM)的研究,参见文献 [24]。&/li&&li&对于 Wide and Deep Learning,将 wide 部分替换 gbdt 组合特征,在实验中取得了较好的效果,并将在近期上线。后续的工作将针对如何进行 wide 部分和 deep 部分的 alternating training 展开。&/li&&/ul&&p&&b&Feature Engineering&/b&&/p&&p&事实上,虽然深度学习等方法一定程度上减少了繁杂的特征工程工作,但我们认为精心设计的特征工程仍旧是不可或缺的, 其中如何进行特征组合是我们在实践中着重考虑的问题。一般的,可以分为显式特征组合和半显式特征组合。&/p&&p&&br&&/p&&p&&b&显式特征组合&/b&&/p&&p&对特征进行离散化后然后进行叉乘,采用笛卡尔积 (cartesian product)、内积 (inner product) 等方式。&/p&&p&在构造交叉特征的过程中,需要进行特征离散化;针对不同的特征类型,有不同的处理方式。&/p&&p&numerical feature&/p&&ul&&li&无监督离散化:根据简单统计量进行等频、等宽、分位点等划分区间&/li&&li&有监督离散化:1R 方法,Entropy-Based Discretization (e.g. D2,MDLP)&/li&&/ul&&p&ordinal feature(有序特征)&/p&&p&编码表示值之间的顺序关系。比如对于卫生条件这一特征,分别有差,中,好三档,那么可以分别编码为 (1,0,0),(1,1,0),(1,1,1)。&/p&&p&categorical feature (无序特征)&/p&&figure&&img src=&https://pic2.zhimg.com/v2-6baf867b397da9fd061603_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&582& data-rawheight=&100& class=&origin_image zh-lightbox-thumb& width=&582& data-original=&https://pic2.zhimg.com/v2-6baf867b397da9fd061603_r.jpg&&&/figure&&ul&&li&离散化为哑变量,将一维信息嵌入模型的 bias 中,起到简化逻辑回归模型的作用,降低了模型过拟合的风险。&/li&&li&离散特征经过 OHE 后,每个分类型变量的各个值在模型中都可以看作独立变量,增强拟合能力。一般的,当模型加正则化的情况下约束模型自由度,我们认为 OHE 更好。&/li&&li&利用 feature hash 技术将高维稀疏特征映射到固定维度空间&/li&&/ul&&p&&br&&/p&&p&&b&半显式特征组合&/b&&/p&&p&区别于显式特征组合具有明确的组合解释信息,半显式特征组合通常的做法是基于树方法形成特征划分并给出相应组合路径。&/p&&p&一般做法是将样本的连续值特征输入 ensemble tree,分别在每颗决策树沿着特定分支路径最终落入某个叶子结点得到其编号,本质上是这些特征在特定取值区间内的组合。ensemble tree 可以采用 Gbdt 或者 random forest 实现。每一轮迭代,产生一棵新树,最终通过 one-hot encoding 转化为 binary vector,如下图所示。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-42d9ac8dbc23bd14bb3550_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&584& data-rawheight=&334& class=&origin_image zh-lightbox-thumb& width=&584& data-original=&https://pic3.zhimg.com/v2-42d9ac8dbc23bd14bb3550_r.jpg&&&/figure&&p&&b&以下几点是我们在实践中的一些总结和思考。&/b&&/p&&ul&&li&在实验中发现如果将连续值特征进行离散化后喂入 gbdt,gbdt 的效果不佳,AUC 比较低。这是因为 gbdt 本身能很好的处理非线性特征,使用离散化后的特征反而没什么效果。xgboost 等树模型无法有效处理高维稀疏特征比如 user id 类特征,可以采用的替代方式是: 将这类 id 利用一种方式转换为一个或多个新的连续型特征,然后用于模型训练。&/li&&li&需要注意的是当采用叶子结点的 index 作为特征输出需要考虑每棵树的叶子结点并不完全同处于相同深度。&/li&&li&实践中采用了 Monte Carlo Search 对 xgboost 的众多参数进行超参数选择。&/li&&li&在离线训练阶段采用基于 Spark 集群的 xgboost 分布式训练,而在线预测时则对模型文件直接进行解析,能够满足线上实时响应的需求。此外,在实践发现单纯采用 Xgboost 自动学到的高阶组合特征后续输入 LR 模型并不能完全替代人工特征工程的作用;可以将原始特征以及一些人工组合的高阶交叉特征同 xgboost 学习到的特征组合一起放入后续的模型,获得更好的效果。&/li&&/ul&&p&&br&&/p&&p&&b&总结&/b&&/p&&p&完整的推荐系统是一个庞大的系统,涉及多个方面,除了召回、排序、列表生产等步骤外,还有数据准备与处理,工程架构与实现,前端展现等等。 在实际中,通过把这些模块集成在一起,构成了一个集团通用推荐系统,对外提供推服务,应用在 10 多个栏位,60 多个场景,取得了很好的效果。本文侧重介绍了召回与排序算法相关的目前已有的一些工作与实践,下一步,计划引入更多地深度模型来处理召回与排序问题,并结合在线学习、强化学习、迁移学习等方面的进展,优化推荐的整体质量。&/p&&p&&b&作者简介&/b&&/p&&p&携程基础业务研发部 - 数据产品和服务组,专注于个性化推荐、自然语言处理、图像识别等人工智能领域的先进技术在旅游行业的应用研究并落地产生价值。目前,团队已经为携程提供了通用化的个性化推荐系统、智能客服系统、AI 平台等一系列成熟的产品与服务。&/p&&p&References[1]
Koren, Yehuda, Robert Bell, and Chris Volinsky. &Matrix factorization techniques for recommender systems.& Computer 42.8 (2009).&/p&&p&[2]
Sedhain, Suvash, et al. &Autorec: Autoencoders meet collaborative filtering.& Proceedings of the 24th International Conference on World Wide Web. ACM, 2015.&/p&&p&[3]
Rendle, Steffen, Christoph Freudenthaler, and Lars Schmidt-Thieme. &Factorizing personalized markov chains for next-basket recommendation.& Proceedings of the 19th international conference on World wide web. ACM, 2010.&/p&&p&[4]
Dong, Xin, et al. &A Hybrid Collaborative Filtering Model with Deep Structure for Recommender Systems.& AAAI. 2017.&/p&&p&[5]
Hidasi, Balázs, et al. &Session-based recommendations with recurrent neural networks.& arXiv preprint arXiv: (2015).&/p&&p&[6]
Zhu, Yu, et al. &What to Do Next: Modeling User Behaviors by Time-LSTM.& Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, IJCAI-17. 2017.&/p&&p&[7]
Barkan, Oren, and Noam Koenigstein. &Item2vec: neural item embedding for collaborative filtering.& Machine Learning for Signal Processing (MLSP), 2016 IEEE 26th International Workshop on. IEEE, 2016.&/p&&p&[8]
Wang, Hao, Naiyan Wang, and Dit-Yan Yeung. &Collaborative deep learning for recommender systems.& Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2015.&/p&&p&[9]
Covington, Paul, Jay Adams, and Emre Sargin. &Deep neural networks for youtube recommendations.& Proceedings of the 10th ACM Conference on Recommender Systems. ACM, 2016.&/p&&p&[10]
Kim, Donghyun, et al. &Convolutional matrix factorization for document context-aware recommendation.& Proceedings of the 10th ACM Conference on Recommender Systems. ACM, 2016.&/p&&p&[11]
&a href=&https://link.zhihu.com/?target=https%3A//mli.github.io//the-end-of-feature-engineering-and-linear-model/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&mli.github.io/&/span&&span class=&invisible&&4/the-end-of-feature-engineering-and-linear-model/&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&[12]
Richardson, Matthew, Ewa Dominowska, and Robert Ragno. &Predicting clicks: estimating the click-through rate for new ads.& Proceedings of the 16th international conference on World Wide Web. ACM, 2007&/p&&p&[13]
Andrew, Galen, and Jianfeng Gao. &Scalable training of L 1-regularized log-linear models.& Proceedings of the 24th international conference on Machine learning. ACM, 2007.&/p&&p&[14]
Graepel, Thore, et al. &Web-scale bayesian click-through rate prediction for sponsored search advertising in microsoft's bing search engine.& Omnipress, 2010.&/p&&p&[15]
McMahan, H. Brendan, et al. &Ad click prediction: a view from the trenches.& Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2013.&/p&&p&[16]
Chen, Tianqi, and Carlos Guestrin. &Xgboost: A scalable tree boosting system.& Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. ACM, 2016.&/p&&p&[17]
Rendle, Steffen. &Factorization machines.& Data Mining (ICDM), 2010 IEEE 10th International Conference on. IEEE, 2010.&/p&&p&[18]
Juan, Yuchin, et al. &Field-aware factorization machines for CTR prediction.& Proceedings of the 10th ACM Conference on Recommender Systems. ACM, 2016.&/p&&p&[19]
Gai, Kun, et al. &Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction.& arXiv preprint arXiv: (2017).&/p&&p&[20]
He, Xinran, et al. &Practical lessons from predicting clicks on ads at facebook.& Proceedings of the Eighth International Workshop on Data Mining for Online Advertising. ACM, 2014.&/p&&p&[21]
Cheng, Heng-Tze, et al. &Wide & deep learning for recommender systems.& Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. ACM, 2016.&/p&&p&[22]
Guo, Huifeng, et al. &DeepFM: A Factorization-Machine based Neural Network for CTR Prediction.& arXiv preprint arXiv: (2017).&/p&&p&[23]
Zhou, Guorui, et al. &Deep Interest Network for Click-Through Rate Prediction.& arXiv preprint arXiv: (2017).&/p&&p&[24]
Blondel, Mathieu, et al. &Higher-order factorization machines.& Advances in Neural Information Processing Systems. 2016.&/p&&p&[25]
&a href=&https://link.zhihu.com/?target=http%3A//breezedeus.github.io//breezedeus-feature-hashing.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&breezedeus.github.io/20&/span&&span class=&invisible&&14/11/20/breezedeus-feature-hashing.html&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&[26]
&a href=&https://link.zhihu.com/?target=https%3A//en.wikipedia.org/wiki/Categorical_variable& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&en.wikipedia.org/wiki/C&/span&&span class=&invisible&&ategorical_variable&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&[27]
&a href=&https://www.zhihu.com/question/& class=&internal&&&span class=&invisible&&https://www.&/span&&span class=&visible&&zhihu.com/question/4867&/span&&span class=&invisible&&4426&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&更多干货内容,可关注AI前线,ID:ai-front,后台回复「&b&AI」、「TF」、「大数据」&/b&可获得《AI前线》系列PDF迷你书和技能图谱。&/p&
本文由 「AI前线」原创,原文链接: 作者|携程基础业务研发部 编辑|EmilyAI 前线导读:”携程作为国内领先的 OTA,每天向上千万用户提供全方位的旅行服务,如何为如此众多的用户发现适合自己的旅游产品与服务…
&p&谢邀! &a class=&member_mention& href=&//www.zhihu.com/people/798a04a9ece3f0f2ed82& data-hash=&798a04a9ece3f0f2ed82& data-hovercard=&p$b$798a04a9ece3f0f2ed82&&@张毅飞&/a& &/p&&p&感谢毅飞兄能够与我深入讨论这个话题,我今天就代表我们两个回答一下这个问题。&/p&&p&&br&&/p&&h2&&b&第一阻力是缺少数据驱动的产品文化&/b&&/h2&&p&前几天, &a class=&member_mention& href=&//www.zhihu.com/people/e7bd2ed5c6211016dcdfcf1a1c8e6f19& data-hash=&e7bd2ed5c6211016dcdfcf1a1c8e6f19& data-hovercard=&p$b$e7bd2ed5c6211016dcdfcf1a1c8e6f19&&@宋伟beta&/a& 宋老师在一个500人的产品经理群里参与了一次关于国内A/B测试为什么落地难的讨论,很有意思,大家可以感受一下。&/p&&figure&&img src=&https://pic3.zhimg.com/50/v2-9afdc49a3_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1431& data-rawheight=&624& class=&origin_image zh-lightbox-thumb& width=&1431& data-original=&https://pic3.zhimg.com/50/v2-9afdc49a3_r.jpg&&&/figure&&p&&br&&/p&&p&&b&中国企业更加容易崇拜大牛&/b&,相信经验,这个是民族性的特征,谈不上好坏,在某些领域甚至有其独特的魅力。比如张小龙曾经说过在最初做微信的时候自己是从来不看用户数据的,他在那个著名的长达九个小时关于微信产品方法论的腾讯内部培训中,也几乎没有提到数据的作用。&/p&&p&但以一己之力创造出优秀产品的大牛是可遇不可求的,而且&b&坦言之大牛的成功是不可复制的,做产品不可能有放之四海而皆准的规范。&/b&在移动端红利逐渐消失,获取流量越来越难的当下,如何用数据驱动产品迭代,渐渐变成每一位产品经理的必修课。然而说到用数据驱动优化产品,以及数据决策方面,就不能不提到AB测试这样重要的方法和工具,所以,AB测试的普及和应用只是个时间问题。&/p&&h2&阻力二:是企业文化&/h2&&p&这个比较复杂,方方面面,举两个例子:&/p&&p&a、A/B测试用来说服老板“哎,张总,你看你提的那个方案我们跟现有方案A/B测试了一下,成交量下跌了不少,要不就先不上了,换一个?”很多有智慧的PM用A/B测试来说服老板,比直接硬刚正面会好很多;&/p&&p&b、做完试验发现很多关键指标,新版本不如老版本,最后结论是“数据统计有问题”——不能接受自己主导的B版本不如其他人主导开发的或者老版的A版本,就否定第三方工具,要么个人看不开,要么所在公司的办公室政治问题很严重;&/p&&p&实际上,AB测试的方法是纯数据决策的思路,试验对比的数据会告诉你结果的好坏;然而冷冰冰的数字和很多国内公司“人治&的文化是天然对立的。&b&如果一个公司的文化并不足够开放透明,AB测试驱动产品优化,则会成为一句空话,很难落到实处。&/b&&/p&&h2&阻力三:落地执行对公司内部团队协作要求比较高&/h2&&p&如果是自建AB测试系统,不仅仅是产品团队的工作量,还需要多个部门的协作,设计师、QA、数据部门、都需要参与其中。一旦决定要开启AB测试的试验,相应的原有产品迭代节奏会因此而改变。&/p&&p&毫无疑问这意味着额外的工作量,这对于大部分开发资源紧缺的公司或许是一个不小的挑战。而且AB测试对于数据采集和统计学算法是有一定要求的,如果数据不准确反倒会导致得出和真实结论完全相反的结果。&/p&&h2&阻力四——AB测试基础知识的普及&/h2&&p&还有很多从业人员认为数据统计是必须的,A/B测试是可选的,这就相当于我只想知道问题在哪里,而不想知道怎样可以解决问题,但很多人就是不明白这层道理。正确姿势是利用数据统计发现产品转化率低的薄弱环节,然后再跑AB测试去优化它。否则不停的所谓迭代更新很可能只是原地打转,并没有有效的改进。&/p&&p&所以首先要有利用AB测试的试验数据优化产品的意识很重要。&/p&&p&而且经常会有“伪AB测试”这样的情况:&/p&&ul&&li&比如这个星期上A版本,下个星期上B版本,然后对比两个星期的数据去做结论,完全不考虑AB测试试验样本需要的并行性。&/li&&li&再如,Android小渠道发版,不同的版本发两个不同的渠道,然后再对比两个渠道的数据,完全不考虑AB测试试验样本需要的一致性。&/li&&li&再如,只是单纯的比较不同版本指标的大小,完全不考虑统计学意义上的数据波动性。&/li&&/ul&&p&这些不正确的AB测试姿势是无法得到正确结论的,甚至会误导决策起到完全相反的作用;做了还不如不做。&/p&&p&最后再来看看下面的图,55位产品经理的投票,任重道远啊!&/p&&figure&&img src=&https://pic3.zhimg.com/50/v2-99a2fbac3bee279ce5c4a_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1438& data-rawheight=&1668& class=&origin_image zh-lightbox-thumb& width=&1438& data-original=&https://pic3.zhimg.com/50/v2-99a2fbac3bee279ce5c4a_r.jpg&&&/figure&
感谢毅飞兄能够与我深入讨论这个话题,我今天就代表我们两个回答一下这个问题。 第一阻力是缺少数据驱动的产品文化前几天,
宋老师在一个500人的产品经理群里参与了一次关于国内A/B测试为什么落地难的讨论,很有意思,大家可以感…
&figure&&img src=&https://pic3.zhimg.com/v2-037cd1d5e0a2b2081aad8_b.jpg& data-rawwidth=&648& data-rawheight=&408& class=&origin_image zh-lightbox-thumb& width=&648& data-original=&https://pic3.zhimg.com/v2-037cd1d5e0a2b2081aad8_r.jpg&&&/figure&&p&在极速洞察,Panel管理绝不是简单的做问卷兑换礼品那么一件小事。它和任何一个忠诚度计划一样有严格的管理方法和体系。&/p&&p&我们在会员生命周期管理的过程中也尝试用技术来提高panel会员的engagement level。&/p&&p& 下面就和大家分享一下用贝叶斯模型来预测会员流失的小案例。在此之前先说说下“贝叶斯模型”。&/p&&p&举个栗子~&/p&&p&某个医院早上收了六个门诊病人,情况如下:&/p&&figure&&img src=&https://pic1.zhimg.com/v2-248e5a9c44c6e6778fe58c_b.png& data-rawwidth=&427& data-rawheight=&284& class=&origin_image zh-lightbox-thumb& width=&427& data-original=&https://pic1.zhimg.com/v2-248e5a9c44c6e6778fe58c_r.jpg&&&/figure&&p& 现在又来了第七个病人,是一个打喷嚏的建筑工人。&/p&&p&那么问题来了,他患上感冒的概率有多大?同理,这个病人患上过敏或脑震荡的概率又是多少。比较这几个概率,就可以知道他最可能得什么病。&/p&&p&贝叶斯模型是可以解决这个问题的,实际上是在条件概率的基础上,一种简答有效的分类方法。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-669edbe792cf541fb94d24e_b.jpg& data-rawwidth=&648& data-rawheight=&408& class=&origin_image zh-lightbox-thumb& width=&648& data-original=&https://pic3.zhimg.com/v2-669edbe792cf541fb94d24e_r.jpg&&&/figure&&p&“任何事件都是条件概率。”任何事件的发生都不是完全偶然的,它都会以其他事件的发生为基础。换句话说,条件概率就是在其他事件发生的基础上,某事件发生的概率。&/p&&p&在panel的管理当中,也是同样的道理。&/p&&p&由于问卷的长度,低出现率及相对平淡的内容,我们Panel流失率一直居高不下。虽然,你能计算用户整体流失的概率(流失用户数/用户总数)。但这个数字并没有多大意义。&/p&&p&因为资源是有限的,利用这个数字你只能撒胡椒面似的把钱撒在所有用户上,显然不经济。&/p&&p&产品团队非常想根据用户的某种行为,精确地估计一个用户流失的概率。跟前文中的例子是一样的,根据以往的用户行为来判断新注册的有着不同行为的用户在不同时机的流失概率。&/p&&p&若这个概率超过某个阀值,再触发用户挽留机制。这样能把钱花到最需要花的地方。&/p&&p&我们取得了近一个月的流失用户数、流失用户中未响应问卷邀请超过三次的人数、近一个月的活跃用户数及活跃用户中未响应问卷超过三次的人数。在此基础上,获得了一个“一旦用户未响应邀请大于3次,他流失的概率高达89%”的精确结论。&/p&&p&怎么实现这个计算呢? 在我们的例子里,以P(A)代表用户流失的概率,P(B)代表用户有三次未响应的概率,P(B|A)代表用户流失的前提下未响应三次的概率。我们要求未响应三次的用户流失的概率,即P(A|B),贝叶斯公式告诉我们:&/p&&p&P(A|B)=P(B|A)*P(A)/P(B)&/p&&p&如下图,由这个公式我们就能轻松计算出,在观察到某用户的未响应大于三次时,他流失的概率。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-df29fdab1fa4f45ea09bd_b.jpg& data-rawwidth=&559& data-rawheight=&427& class=&origin_image zh-lightbox-thumb& width=&559& data-original=&https://pic2.zhimg.com/v2-df29fdab1fa4f45ea09bd_r.jpg&&&/figure&&p&当然,现实情况并不会像这个例子这么理想化。大家会问,凭什么你就会想到用“未响应三次”来作为条件概率?&/p&&p&我只能说,现实情况中,你可能要找上一堆觉得能够凸显用户流失的行为,然后一一做贝叶斯规则,来测算他们是否能显著识别用户流失。&/p&&p&寻找这个字段的效率,取决于你对业务的理解程度和直觉的敏锐性。另外,你还需要定义“流失”和“活跃”,还需要定义贝叶斯规则计算的基础样本,这决定了结果的精度。&/p&&br&&p&准确的推算流失率只是panel管理的第一步,更重要的是采取更多地挽留措施来及时对会员进行关怀,让摇摆用户再变回我们的忠诚用户。到底哪些措施和怎么操作才能达到最佳的性价比呢?请继续关注极速洞察的后续文章。最后想说一句“做panel我们是认真的!”以上部分内容综合自网络。&/p&&p&aHR0cDovL3dlaXhpbi5xcS5jb20vci9Wal91dGtQRTBCNnZyUWZWOTJwRQ== (二维码自动识别)&/p&
在极速洞察,Panel管理绝不是简单的做问卷兑换礼品那么一件小事。它和任何一个忠诚度计划一样有严格的管理方法和体系。我们在会员生命周期管理的过程中也尝试用技术来提高panel会员的engagement level。 下面就和大家分享一下用贝叶斯模型来预测会员流失的…
&p&&strong&什么是逻辑回归?&/strong&&/p&&p&Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。&/p&&p&这一家族中的模型形式基本上都差不多,不同的就是因变量不同。&/p&&ul&&li&如果是连续的,就是多重线性回归;&/li&&li&如果是二项分布,就是Logistic回归;&/li&&li&如果是Poisson分布,就是Poisson回归;&/li&&li&如果是负二项分布,就是负二项回归。&/li&&/ul&&p&Logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最常用的就是二分类的Logistic回归。&/p&&p&Logistic回归的主要用途:&/p&&ul&&li&寻找危险因素:寻找某一疾病的危险因素等;&/li&&li&预测:根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大;&/li&&li&判别:实际上跟预测有些类似,也是根据模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。&/li&&/ul&&p&Logistic回归主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。&/p&&p&分析主题?分析目的?分析结论?&/p&&p&最近学了Python的sklearn,结合实际用户,想建立用户流失预测模型。网上查了很多资料,针对用户流失预警模型采用决策树,逻辑回归算法比较多,当然也有使用SVM,贝叶斯算法。下面就是我根据自己工作中的一个产品作为主题,预测其用户流失与留存。流失=上个月有消费,本月无消费表流失(其实也是消费流失啦)。数据周期使用的是一两个月来做分析,什么情况下用户会消费流失?于是挑选了一些指标特征来做分析,比如上个月的消费次数、最近的消费时间(可量化),消费金额,rmf这个原理还是有一个分析依据的。当然还有其他特征如,用户观看总时长、用户活跃天数、停留时长、启动次数、等。&/p&&div class=&highlight&&&pre&&code class=&language-python&&&span&&/span&&span class=&kn&&import&/span& &span class=&nn&&pandas&/span& &span class=&kn&&as&/span& &span class=&nn&&pd&/span&
&span class=&n&&df&/span&&span class=&o&&=&/span&&span class=&n&&pd&/span&&span class=&o&&.&/span&&span class=&n&&read_csv&/span&&span class=&p&&(&/span&&span class=&s1&&'DL135667_RESULT.csv'&/span&&span class=&p&&)&/span&
&span class=&n&&df_data&/span&&span class=&o&&=&/span&&span class=&n&&df&/span&&span class=&o&&.&/span&&span class=&n&&loc&/span&&span class=&p&&[:,[&/span&&span class=&s1&&'pay_times'&/span&&span class=&p&&,&/span&&span class=&s1&&'pay_r'&/span&&span class=&p&&,&/span&&span class=&s1&&'pay'&/span&&span class=&p&&,&/span&&span class=&s1&&'all_dr'&/span&&span class=&p&&,&/span&&span class=&s1&&'all_ndt'&/span&&span class=&p&&]]&/span&
&span class=&n&&df_target&/span&&span class=&o&&=&/span&&span class=&n&&df&/span&&span class=&o&&.&/span&&span class=&n&&loc&/span&&span class=&p&&[:,[&/span&&span class=&s1&&'is_lost'&/span&&span class=&p&&]]&/span&
&span class=&n&&X&/span&&span class=&o&&=&/span& &span class=&n&&df_data&/span&&span class=&o&&.&/span&&span class=&n&&as_matrix&/span&&span class=&p&&()&/span&
&span class=&n&&Y&/span&&span class=&o&&=&/span&&span class=&n&&df_target&/span&&span class=&o&&.&/span&&span class=&n&&as_matrix&/span&&span class=&p&&()&/span&
&/code&&/pre&&/div&特征工程:代码忽略,这个在数据收集和清理后已做了些分析。&p&针对上面选择的指标,利用决策树模型查下看看特征在分类中起到的作用大&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&from sklearn.ensemble import ExtraTreesClassifier
x_train,x_test,y_train,y_test=train_test_split(X,Y,test_size=0.2)
#利用信息熵作为划分标准,对决策树进行训练,这里做了些测试,深度设置为7效果比较好。
clf=tree.DecisionTreeClassifier(criterion='entropy',max_depth=7)
clf.fit(x_train,y_train)
#把决策树写入文件
if os.path.isdir(u'D:\\sklearn测试库'):
os.makedirs(u'D:\\sklearn测试库')
with open(u'D:\\sklearn测试库\\决策结果.txt','w') as
f=tree.export_graphviz(clf,out_file=f)
print(u'打印出特征')
expected = y_test
predicted = clf.predict(x_test)
#预测情况,精确率,召回率,f1分数等
print(metrics.classification_report(expected, predicted))
print(metrics.confusion_matrix(expected, predicted))
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import ExtraTreesClassifier
#logisticrgression逻辑回归
lg_model = LogisticRegression(penalty='l2',C=1000)
a_normalized = normalize(scale(X), norm='l2')
#数据标准化正则化
#特征对模型分类重要程度
model = ExtraTreesClassifier()
model.fit(a_normalized,Y)
print('feature_importances:')
print(model.feature_importances_)
#pca降维,该方法是测试下降维的效果
pca = decomposition.PCA(n_components=2)
a_pca = pca.fit_transform(a_normalized)
lx_train,lx_test,ly_train,ly_test=train_test_split(a_pca,Y,test_size=0.2)
lg_model.fit(lx_train, ly_train)
lexpected = ly_test
predicted = lg_model.predict(lx_test)
print(metrics.classification_report(lexpected, predicted))
print(metrics.confusion_matrix(lexpected, predicted))
&/code&&/pre&&/div&&br&&p&交叉认证分#scores = cross_validation.cross_val_score(clf, raw data, raw target, cv=5, score_func=None).clf是不同的分类器,可以是任何的分类器。比如支持向量机分类器。clf = svm.SVC(kernel='linear', C=1)cv参数就是代表不同的cross validation的方法了。如果cv是一个int数字的话,并且如果提供了raw target参数,那么就代表使用StratifiedKFold分类方式,如果没有提供raw target参数,那么就代表使用KFold分类方式。cross_val_score函数的返回值就是对于每次不同的的划分raw data时,在test data上得到的分类的准确率。至于准确率的算法可以通过score_func参数指定,如果不指定的话,是用clf默认自带的准确率算法。&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#交叉验证
scores = cross_validation.cross_val_score(lg_model, a_pca, Y,cv=5)#score_func=metrics.f1_score 可选择指标参数,默认自带的准确率算法。
print scores
&/code&&/pre&&/div&
什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型形式基本上都差不…
&figure&&img src=&https://pic1.zhimg.com/v2-45505c2fbae4aec40010_b.jpg& data-rawwidth=&580& data-rawheight=&387& class=&origin_image zh-lightbox-thumb& width=&580& data-original=&https://pic1.zhimg.com/v2-45505c2fbae4aec40010_r.jpg&&&/figure&&p&性别是人类差异最大的特征之一,又是群体行为、偏好和需求等方面的基本影响因子之一;性别识别的重要性和价值性不言而喻,每个用户画像产品的构建,基本都会遇到性别标签的识别需求。&/p&
&p&目前业内用户性别识别的方法很多,最大的特点是基于用户的行为进行用户识别,识别的准确性也参差不齐。作者认为影响识别准确性的关键原因在于这些用户行为蕴含的性别影响因子有多大,如果性别的区别对这些行为没有多大的影响力,那模型和算法的准确性将会遇到明显的瓶颈。同时,基于用户行为的性别识别涉及的数据面非常广、数据依赖链条很长、数据计算复杂度很高,识别效能反而成为了痛点!&/p&
&p&在这里,作者分享一下贝聊的用户性别识别模型:基于用户信息(姓名)的用户性别识别方法!这虽然只是一个单因素识别模型,但是实际识别准确率却高达90%以上,为什么效能这么高?主要是因为性别对命名的影响至关重要!下面我们分步骤来讲解下贝聊的用户性别识别模型构建过程。&/p&
&p&&b&一、 &/b&&b&样本库构建:&/b&&/p&
&/b&&b&“姓名—性别”关系库构建&/b&&/p&
&p&因为姓名+性别不能大概率锁定出唯一的用户,所以姓名和性别的数据敏感度并不高,通过百度等搜索引擎可以轻松获得,这里不详述。贝聊有自身的数据样本,并且进行了数据脱敏处理,初期过滤了一个十多万条“姓名—性别“的高精度种子样本库(已足够用!),并进行分词处理,结果库如下图(图中数据并非贝聊真实用户,仅是演示案例!)&/p&&figure&&img src=&https://pic1.zhimg.com/v2-2df41a5cc01c7719886a_b.jpg& data-rawwidth=&764& data-rawheight=&644& class=&origin_image zh-lightbox-thumb& width=&764& data-original=&https://pic1.zhimg.com/v2-2df41a5cc01c7719886a_r.jpg&&&/figure&&p&&b&2、
&/b&&b&“词性—性别概率”关系库构建&/b&&/p&
&p&贝聊的用户性别识别模型对不同词在姓名中的位置做了区分,因为同一个词用在名字的不同位置的性别含义有较大区别!例如:“海”字,在用作名字的最后一个词时,男性概率高达95%;但作为名字的中间词时,男性概率仅有51%(基本是一个中性词)。&/p&
&p&经过样本数据的计算,统计出每个词的性别概率,结果库如下图所示(演示数据!)&/p&&figure&&img src=&https://pic4.zhimg.com/v2-bf5bdaecbd26ef235dbea_b.jpg& data-rawwidth=&524& data-rawheight=&626& class=&origin_image zh-lightbox-thumb& width=&524& data-original=&https://pic4.zhimg.com/v2-bf5bdaecbd26ef235dbea_r.jpg&&&/figure&&p&&b&二、 &/b&&b&用户性别识别模型构建&/b&&/p&
&/b&&b&模型构建&/b&&/p&
&p&基于用户信息的用户性别识别模型构建非常简洁,因为是文本数据,也不需要用到相对复杂一些的逻辑回归等算法,模型构建的思路基本上是“词性—性别概率”关系库构建的逆过程。姓名的识别概率公式如下图:&/p&&figure&&img src=&https://pic1.zhimg.com/v2-9ea5cd59a53bb5a6605a3_b.jpg& data-rawwidth=&1424& data-rawheight=&685& class=&origin_image zh-lightbox-thumb& width=&1424& data-original=&https://pic1.zhimg.com/v2-9ea5cd59a53bb5a6605a3_r.jpg&&&/figure&&p&
计算出用户性别的识别概率后,通过设定阈值,即可得到用户的性别标签。整体而言,模型计算量非常小,可解释度很高,模型出错时问题容易追踪,预测效能非常好!&/p&
&/b&&b&结果分析&/b&&/p&
&p&计算用户性别识别概率后,通过设定不同的阈值,可以得到不同的预测准确性。相对来说,阈值越低(例如预测男性概率大于50%时,就算男性,否则女性),则可预测的用户面较大,阈值越高(例如预测男性概率大于60%时,才算男性,小于40%才算女性),则预测的准确性得到保障,但有部分用户没法识别。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-75ee6feda6d8bba6c395923_b.jpg& data-rawwidth=&1421& data-rawheight=&732& class=&origin_image zh-lightbox-thumb& width=&1421& data-original=&https://pic1.zhimg.com/v2-75ee6feda6d8bba6c395923_r.jpg&&&/figure&&p&
上图,我们抽取了部分贝聊员工来做模型结果验证测试(阈值设定为50%);从数据来看,模型准确性非常高,呈现出以下特点:&/p&
&b&预测准确度和精确度,都高于90%;&/b&其中男性的预测准确度更高,女性的预测精确度更高;说明相对而言,女性用户一般不会采用男性化字眼的名字。&/p&
&b&预测结果仍有5%-10%左右的误差率;&/b&这应该是男性命名女性化,女性命名男性化影响所致,或者命名性别中性化。在单因素模型下,只能通过调整阈值来解决,否则就需要引入其他因子,构建多因素识别模型。&/p&
&p&&b&根据作者的经验,基于用户姓名的用户性别识别模型具有较好的适用性、可部署性和延展性,在研究单因素识别方法方面提供了一定的参考价值;也可以在此基础上,引入其他因素,提高模型的准确性。&/b&&/p&
&p&注:部分公司可能没有用户的姓名,只有用户昵称,这是数据局限性的问题,当然也期待大家进行基于用户昵称的用户性别识别模型的准确性。&/p&
性别是人类差异最大的特征之一,又是群体行为、偏好和需求等方面的基本影响因子之一;性别识别的重要性和价值性不言而喻,每个用户画像产品的构建,基本都会遇到性别标签的识别需求。
目前业内用户性别识别的方法很多,最大的特点是基于用户的行为进行用户…
&figure&&img src=&https://pic2.zhimg.com/838f862c109bf53f1edcf0fcd64df611_b.jpg& data-rawwidth=&492& data-rawheight=&656& class=&origin_image zh-lightbox-thumb& width=&492& data-original=&https://pic2.zhimg.com/838f862c109bf53f1edcf0fcd64df611_r.jpg&&&/figure&用户模型(Persona)是Alan Cooper在《About Face:交互设计精髓》一书中提到的研究用户的系统化方法。它是产品经理、交互设计师了解用户目标和需求、与开发团队及相关人交流、避免设计陷阱的重要工具。&p&但在现实中,一般只有很少的成熟公司,产品经理、交互设计师或用户研究人员才会花时间构建用户模型,个人认为之所以这样,至少包含两方面原因:&/p&&ul&&li&一个主要原因在于,按照传统方法构建用户模型的成本高、时间长,不是一般公司和团队所能承受的;&/li&&li&另一个原因在于,传统方法对用户模型构建者的要求很高,尤其是对用户的访谈和观察,其中有很多的方法和技巧,不少产品经理不敢尝试,有些人尝试后并没有得到有用的信息,后面往往就不再做了。&/li&&/ul&&p&本文将尝试提出一种基于用户行为数据的快速构建用户模型的方法。&/p&&br&&h2&用户模型构建的传统方法&/h2&&p&Alan Cooper提出了两种构建用户模型的方法:&/p&&ul&&li&&strong&用户模型&/strong&:基于对用户的访谈和观察等研究结果建立,严谨可靠但费时;&/li&&li&&strong&临时用户模型(ad hoc persona)&/strong&:基于行业专家或市场调查数据对用户的理解建立,快速但容易有偏颇。&/li&&/ul&&br&&p&&b&&u&方法1:基于访谈和观察的构建用户模型(正统方法)&/u&&/b&&/p&&p&在Alan Cooper的方法中,对用户的访谈和观察是构建用户模型的重要基础。完整步骤如下图:&/p&&figure&&img src=&https://pic2.zhimg.com/7ab5bfacaef6f8023ef38d_b.png& data-rawwidth=&990& data-rawheight=&756& class=&origin_image zh-lightbox-thumb& width=&990& data-original=&https://pic2.zhimg.com/7ab5bfacaef6f8023ef38d_r.jpg&&&/figure&&p&&strong&第0步:对用户的访谈和观察(及其他研究)。&/strong&将用户当成师傅,自己作为徒弟去观察师傅的行为,并提出问题。在整个过程中收集并研究用户行为、环境、谈话内容等信息,以发现用户的行为、情境和目标。(比如,某儿童社区的用户角色大致分为孩子、妈妈、爸爸和祖辈等四类,需要分别研究)&/p&&p&&strong&第1步:根据角色对访谈对象进行分组。&/strong&根据研究结果和理解对用户进行大致的角色划分,并根据角色对要访谈的用户进行分组。&/p&&p&&strong&第2步:找出行为变量。&/strong&把每种角色的显著行为列成几组行为变量。一般包括用户的活动(行为及频率)、(对产品及相关技术的)态度、能力、动机、技能几个方面。&/p&&p&&strong&第3步:将访谈主体和行为变量对应起来。&/strong&实际上就是为每个访谈用户标注各项行为的情况。&/p&&p&&strong&第4步:找出重要的行为模型。&/strong&发现访谈用户中的中的显著的行为模式组合。(比如儿童社区产品的「某些家长」会「密切关注」孩子在社区中的一举一动,而「另一些家长」则只是「偶尔了解」一下孩子的情况)&/p&&p&&strong&第5步:综合各种特征,阐明目标。&/strong&从用户模型的行为细节中综合/挖掘出用户的目标和其他特性。&/p&&p&&strong&第6步:检查完整性和冗余。&/strong&为每种用户模型弥补行为特征中重要的缺漏,将行为模式相同而仅仅是人口统计数据有差异的用户模型合并为一个。&/p&&p&&strong&第7步:指定用户模型的类型。&/strong&对用户模型进行优先级排序,确定主要、次要、补充和负面用户模型。主要用户模型是界面设计的主要对象,一个产品的一个界面,只能有一个主要用户模型。&/p&&p&&strong&第8步:进一步描述特征和行为。&/strong&通过第三人称叙述的方式描述用户模型,并为不同用户模型选择恰当的照片。至此,用户模型构建完成。&/p&&br&&p&&b&&u&方法2:构建临时用户模型(ad hoc persona)&/u&&/b&&/p&&p&在缺乏时间、资源不能做对用户的访谈和观察时,可以基于行业专家对用户的理解、或市场研究中获得的人口统计数据,建立「临时用户模型」。&/p&&figure&&img src=&https://pic3.zhimg.com/07e2a1d411cb1aba58e6_b.png& data-rawwidth=&1088& data-rawheight=&650& class=&origin_image zh-lightbox-thumb& width=&1088& data-original=&https://pic3.zhimg.com/07e2a1d411cb1aba58e6_r.jpg&&&/figure&&p&「临时用户模型」的构建过程与「用户模型」的构建过程很像,只是其数据基础一个是来自对真实用户的访谈和观察,另一个是来自对用户的理解。二者的准确度和精度都有差别。&/p&&br&&h2&基于用户行为数据快速、迭代构建用户模型的方法&/h2&&p&到现在,距离Alan Cooper首次提出用户模型(Persona)概念已经过去快20年了。在这期间,软件产品开发的过程方法以及公司的运作方式都发生了很大改变:以快速迭代为特点的敏捷开发方法取代了传统的瀑布模型,以「开发→测量→认知」反馈循环为核心的精益创业方法在逐步影响和改变公司的运作方式……&/p&&p&而传统的用户模型构建方法,从诞生之日起并未发生特别大的变化。对于已经习惯了敏捷、快速的产品经理和交互设计师来说:一方面,花很长时间去研究用户构建用户模型需要下相当大的决心、更需要下很大力气才能争取到所需的时间和资源;另一方面,互联网产品冷启动耗费的时间越来越短,为了降低成本和风险,产品团队在启动期往往会选择尽快将产品推向用户,尽快获得反馈以「快速试错」,现实和压力迫使大多数新产品的PM不敢投入大量时间精力深入的进行用户研究。这就很容易理解,为什么大家都觉得用户模型很好,却鲜有人在工作中真正运用它。&/p&&p&接下来,我们将提出一种基于用户行为数据的快速、迭代构建用户模型的轻量方法。&/p&&figure&&img src=&https://pic4.zhimg.com/0f43ae7edd45f5ecbc65f_b.png& data-rawwidth=&754& data-rawheight=&752& class=&origin_image zh-lightbox-thumb& width=&754& data-original=&https://pic4.zhimg.com/0f43ae7edd45f5ecbc65f_r.jpg&&&/figure&&p&&strong&首先,在开始时,整理和收集已经获得的任何对用户的认知、经验和数据。&/strong&&/p&&p&它们可能是您和所在团队对用户的理解,也可能是您产品的业务数据库中记录的用户相关信息(比如用户的性别、年龄、等级等属性),还可能是用户(在产品内外)填写的任何表单或留下来的信息(比如用户填写的调查问卷、留下的微信账号等等)。&/p&&figure&&img src=&https://pic1.zhimg.com/ceca91fe44acacbdb2f2c_b.png& data-rawwidth=&706& data-rawheight=&750& class=&origin_image zh-lightbox-thumb& width=&706& data-original=&https://pic1.zhimg.com/ceca91fe44acacbdb2f2c_r.jpg&&&/figure&&p&您可以将这些信息映射成为用户的描述信息(属性)或用户的行为信息,并存储起来形成&strong&用户档案&/strong&(最终形成的结果如下图示意)。&/p&&figure&&img src=&https://pic2.zhimg.com/449be010f0_b.png& data-rawwidth=&1066& data-rawheight=&756& class=&origin_image zh-lightbox-thumb& width=&1066& data-original=&https://pic2.zhimg.com/449be010f0_r.jpg&&&/figure&&p&&em&注意:从这一步开始,你就需要一个存储了用户信息和用户行为信息的数据库系统,它能够支持你快速的进行接下来的各种分析和探索,直至形成用户模型。如果您团队的技术人员没有时间为您搭建这样的系统,您可以考虑引入类似于&a href=&http://link.zhihu.com/?target=htts%3A//zhugeio.com& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&诸葛io&/a&这样的分析工具,它可以帮您存储用户及行为数据,以方便查询使用,您还可以在您的App或网站中集成诸葛io的SDK,方便的记录用户的行为数据。&/em&&/p&&p&&strong&然后,根据已获得的认知和经验对用户分群,这些用户群是进一步研究的基础。&/strong&比如,你觉得用户也许可以分为孩子、妈妈、爸爸和祖辈等四类,或者你认为购物的用户可以分为男女两类,那就根据数据划分好了。如果在诸葛io中,您可以通过定义用户群实现(如下图)。&/p&&figure&&img src=&https://pic2.zhimg.com/f2d6c6ca10bbfa90aa476d_b.png& data-rawwidth=&2096& data-rawheight=&1038& class=&origin_image zh-lightbox-thumb& width=&2096& data-original=&https://pic2.zhimg.com/f2d6c6ca10bbfa90aa476d_r.jpg&&&/figure&&p&&strong&接下来,您就要对上一步的用户群逐个进行分析,并尝试从中发现显著的行为模式。&/strong&&/p&&p&对于每个用户群,分析步骤如下:&/p&&ul&&li&从用户群中随机选取一些用户(一般根据您的时间情况,可以选取几十到上百个用户,建议最少不低于30个);&/li&&li&逐个用户解读其属性特征和行为记录,努力通过这些数据还原出用户的真实使用场景和过程,并尝试推测其目标。在解读的同时,随时记录你发现的有趣的行为模式、以及不解之处。(&em&注意,这一步的工作至关重要,对用户及其行为的感性认识是后续工作的基础。要记住:读用户如读书,读其百遍、其义自现!&/em&)&/li&&/ul&&figure&&img src=&https://pic2.zhimg.com/6fcfb19e17b377cb326ff51_b.png& data-rawwidth=&1350& data-rawheight=&656& class=&origin_image zh-lightbox-thumb& width=&1350& data-original=&https://pic2.zhimg.com/6fcfb19e17b377cb326ff51_r.jpg&&&/figure&&ul&&li&根据上面步骤中发现的典型行为模式和场景、目标的推测,对用户群进行更细致的划分。比如,你发现一些用户会定期采购大量的办公用品(有趣的行为模式),并推测这些人可能是企业行政部门的采购人员,他们要根据其他员工的需求定期完成采购任务(场景和目标),那么你就可以将这群人划分出来,作为一个单独的用户群(候选的用户模型),进行后续的研究。(如下图示例)&/li&&/ul&&figure&&img src=&https://pic1.zhimg.com/4b1b80c510f45e9f11fb8_b.png& data-rawwidth=&750& data-rawheight=&704& class=&origin_image zh-lightbox-thumb& width=&750& data-original=&https://pic1.zhimg.com/4b1b80c510f45e9f11fb8_r.jpg&&&/figure&&ul&&li&对上一步形成的候选用户模型(用户群),对其属性和行为数据进行统计分析,初步验证您的猜想。(如果使用诸葛io,您可以通过用户群的「群体画像」、「行为(事件)概览」等功能快速完成所需分析,如下图所示)&/li&&/ul&&figure&&img src=&https://pic2.zhimg.com/e9af8fdee1d_b.png& data-rawwidth=&2160& data-rawheight=&3840& class=&origin_image zh-lightbox-thumb& width=&2160& data-original=&https://pic2.zhimg.com/e9af8fdee1d_r.jpg&&&/figure&&p&&strong&接下来,对上面形成的每个候选用户模型,进一步完成其目标和动机的推测。&/strong&同样,在过程中有任何不解之处,请记录下来。&/p&&p&&strong&从每个用户模型中选取少量具有代表性的用户,进行访谈或调查,以消除您在前面研究中遇到的不解之处。&/strong&在这一步,如果您有足够的时间和资源,那么可以多选一些用户,并尽可能的做现场的访谈和观察;如果您时间和资源有限,那么可以少选一些用户,或者采用电话、问卷等方式完成访谈,对于配合度较高的用户,可以考虑采用录屏或QQ远程协助之类的工具观察用户的真实行为。因为您在前面的步骤中已经对用户的真实行为有了一定的了解,所以在这一步,您可以不必严格的执行Alan Cooper的用户研究方法,从而节省大量的时间和资源。&strong&但是,如非特殊情况,请尽量不要跳过这一步。记住:哪怕是与用户进行很少量的沟通,也有助于发现未知的问题,这是非常值得的。&/strong&&/p&&p&&strong&在完成了上面的工作之后,接下来,您就可以对候选用户模型进行逐个的审视和修正。&/strong& 合并相似的,补充不完整的,采用叙述的方式描述每个用户模型,并为其选择适当的照片,这样就得到了本次迭代的用户模型(如下图示例,图片来自网络)。您可以用这个模型指导界面设计、与团队沟通……&/p&&figure&&img src=&https://pic3.zhimg.com/0a6df98f58b9a2d2aaabb2_b.png& data-rawwidth=&607& data-rawheight=&462& class=&origin_image zh-lightbox-thumb& width=&607& data-original=&https://pic3.zhimg.com/0a6df98f58b9a2d2aaabb2_r.jpg&&&/figure&&p&&strong&最后,根据您的认知变化和产品需要,可以在合适的时机对之前得到的模型进行新一轮的修正。&/strong& 修正的过程和前面相同,可能您会在几次产品迭代中穿插进行一轮用户模型的迭代,时间越久,用户模型就越接近真实的用户情况。&/p&&br&&h2&小结&/h2&&p&本文提供了一种借助行为数据和工具快速、迭代的构建用户模型(Persona)的方法,这套方法与传统的用户模型构建方法相比损失了一定的质量但效率更高,更适合今天的互联网团队的工作方式和节奏。&/p&&p&值得说明的是,这套方法虽经实践验证是可行的,但还有进一步探索优化的空间,如果您想和我们共同探索实践这套方法,可以通过yuxiaosong#&a href=&http://link.zhihu.com/?target=http%3A//zhugeio.com& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&zhugeio.com&/span&&span class=&invisible&&&/span&&/a&(替换@)与我们联系,来信记得简要说明您个人以及产品和团队的情况以及期望参与的方式。&/p&&br&&p&---------------------------------&/p&&br&&h2&本文节选自&b&《&a href=&http://link.zhihu.com/?target=https%3A//zhugeio.com/solutions/product/index.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&产品经理数据分析实战手册&/a&》&/b&(&a href=&http://link.zhihu.com/?target=https%3A//zhugeio.com/solutions/product/index.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&下载链接&/a&)。&/h2&
用户模型(Persona)是Alan Cooper在《About Face:交互设计精髓》一书中提到的研究用户的系统化方法。它是产品经理、交互设计师了解用户目标和需求、与开发团队及相关人交流、避免设计陷阱的重要工具。但在现实中,一般只有很少的成熟公司,产品经理、交互…
&figure&&img src=&https://pic3.zhimg.com/v2-03b5f5cfef6db06f2dbc7_b.jpg& data-rawwidth=&1000& data-rawheight=&556& class=&origin_image zh-lightbox-thumb& width=&1000& data-original=&https://pic3.zhimg.com/v2-03b5f5cfef6db06f2dbc7_r.jpg&&&/figure&&blockquote&&b&宋星大课堂报名中!利用数据优化互联网营销和运营:方法、案例与实战!&/b&&br&深圳,日、2日(周六、周日)&br&&b&点击链接了解课程详情:&a href=&https://link.zhihu.com/?target=http%3A//www.chinawebanalytics.cn/songxing-course-in-shenzhen-201809/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&宋星大课堂&/a&&/b&&/blockquote&&hr&&p&&b&#未经允许谢绝转载,违者追究法律责任#&/b&&/p&&p&这是在上一版(2016年4月版)之后的一次重大更新。&/p&&p&根据之前课程同学们的反馈,增补了一些同样非常常用的词汇,并且增加了一些类别。&/p&&p&&br&&/p&&h2&&b&Part1:最基本的名词&/b&&/h2&&p&&b&Ads&/b&:就是广告(名词)的英语复数啦。Ads = Advertisements。如果是“做广告”(动词),应该用Advertising。&/p&&p&&b&Click&/b&:点击,是指互联网用户点击某个广告的次数。&/p&&p&&b&CPM&/b&:Cost Per Mille,这次实际上省略了impression,全文应该是cost per mille impression。Mille是千的意思,在英语中它只跟着per一起用,即per mille,就是汉语的“每千……”的意思。所以CPM是每千次展示的成本。&/p&&p&&b&CPC&/b&:Cost Per Click,每次点击的成本。&/p&&p&&b&CTR&/b&:Click Through Rate,点击率。就是用click除以impression的比例。&/p&&p&&b&DA&/b&:Digital Marketing Analytics的缩写。数字营销分析。&/p&&p&&b&Impression&/b&:意思是“曝光”,也被称为“展示”或“显示”,是衡量广告被显示的次数,一个广告被显示了多少次,它就计数多少。比如,你打开新浪的一个页面,这上面的所有广告就被“显示”了1次,每个广告增加1个Impression。&/p&&p&&b&PPC&/b&:Pay Per Click的简称。一般是特指搜索引擎的付费竞价排名广告推广形式,因为搜索引擎竞价排名只有一种收费方式,即按照点击付费。虽然也有其他广告形式也是按照点击数量来进行收费,一般不被称为PPC,而被称为CPC,即Cost Per Click。为什么?似乎是约定俗成。&/p&&p&&b&ROI&/b&:Return On Investment的简称。一般而言on这个词是应该小写的,所以ROI似乎应该是RoI,不过大家都约定俗成了,不必较真。ROI是典型的追求效果类的营销的关键指标。在中国的互联网营销,这个值一般指的是,我花了多少钱推广费,直接产生了多少的销售。比如花了1万元做SEM推广,直接卖了3万元的货。ROI会被认为做到了3(即3:1)。这一点与财务计算上的ROI是不同的,后者是利润和投入的比值,但在互联网营销上,大家没有把利润作为R,而是用GMV。关于GMV是什么,本文的下篇有。:)&/p&&p&&b&SEM&/b&: (Search Engine Marketing)(搜索引擎营销),实际上它是可以适用于以下任何一种表达的模糊术语:1.涉及使用搜索引擎的任何数字营销,或2.仅涉及搜索引擎的付费数字营销,即:PPC(付费 – 点击)。对于哪个定义是正确的,没有一个准确的标准,但后者是最常用的。&/p&&p&&b&SEO&/b&:Search Engine Optimization的简称。就是搜索引擎优化,特别指搜索引擎搜索结果自然排名的优化。所谓自然排名,就是不通过给搜索引擎付钱就能获得的排名。不花钱就能被搜索引擎排到前面当然是好事,但大家(每个网站)都这么想,所以要出头还挺难的。懂得这个领域的高手过去能挣很多钱,但今天SEO却越来越短时间内就出效果,所以想要通过SEO挣快钱越来越难。&/p&&p&&b&Social&/b&:社会化,是social marketing(社会化营销)或者social media(社会化媒体)的简称,具体指二者的哪一个要看场合。社会化媒体,在中国过去是人人网、开心网之类,现在是微信、微博、图片分享类网站应用等。&/p&&p&&b&WA&/b&:Web Analytics的缩写。就是网站分析。&/p&&p&&br&&/p&&h2&&b&Part2:数据分析领域&/b&&/h2&&p&&b&AI和BI&/b&:AI是Artificial Intelligence(人工智能)的简称;BI是Business Intelligence(商业智能)的简称。商业智能又称商业智慧或商务智能,在过去指用数据仓库技术、联机分析处理技术、数据挖掘和数据可视化技术等进行数据分析以实现商业价值的一种能力。今天的商业智能开始引入人工智能,从而进入一个新的领域。&/p&&p&&b&Benchmark&/b&:我在大学的时候这个词被翻译为“定标比超”,真是不明觉厉的感觉呀。Benchmark就是“可以作为对比的参照值”。我的很多客户会问,这个指标在行业中的平均情况是什么样呀?他们的问题可以同样表述为:这个指标在行业中的benchmark是多少?&/p&&p&&b&Bubble Chart&/b&:气泡图。一种最多能够表示同一个事物的四个维度(但是一般只用其中三个)的直观的数据可视化方式。这种方式多用在分析流量、用户或者内容的表现上。&/p&&p&&b&Cohort&/b&:没有比较约定俗成的翻译,比较多的翻译是“同期群”。跟Segmentation有点类似,但内涵要多一点,多点排队的意思。Cohort一般是一种分析方法,所以一般不单独出来,而是跟analysis在一起,即cohort analysis——同期群分析。这是一种很重要的分析方法,尤其在分析ROI、用户留存这两个领域。课堂上会详细介绍。&/p&&p&&b&Dimension&/b&:维度。维度是对一指一个事物的不同的方面、特征或者属性。这么说太抽象。简单说,人可以分成男人和女人,性别就是人的一种维度。或者汽车可以分为白色、黑色、红色等,颜色就是汽车的一种维度。维度是最基本的数据结构,任何一个度量(指标)必须要依附于一个具体的维度才有意义。比如说,我说visit=100,这没有任何意义。我说搜索引擎给我的网站带来的visit=100,就有了意义。搜索引擎流量就是维度(即流量来源)的具体的值(就如同男人是性别这个维度的具体的值)。&/p&&p&&b&Filter&/b&:过滤。过滤是指摒弃掉不需要的数据,只留下需要的。过滤都需要遵循一定的规则(这是废话),而且过滤掉的数据往往不能找回。过滤是一种常用的定位某个细分领域的方法,与细分(segmentation)的区别在于,segmentation是把总体分成并列的若干块(segment),而Filter则只保留符合规则的块,而丢弃其他不符合规则的块。&/p&&p&&b&Machine Learning&/b&:专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。&/p&&p&&b&Metric&/b&(常用作复数,即Metrics):通常翻译为度量或者指标,但是因为指标含义更宽泛,例如KPI或者benchmark都可能被称为指标,所以在我的培训中metrics都是用度量来表示,这样更严谨。度量绝大多数都能能用数字表示,比如汽车的速度,速度就是度量。课程中涉及到的度量分为两类,一类是计数度量(比如常见的PV、UV、访次、停留时间等)和复合度量(两个度量四则运算而成,常见的有转化率、跳出率、留存率、活跃率等)。另外有些度量使用布尔量表示,即是或非。度量必须依附于维度才有意义。&/p&&p&&b&Pattern&/b&:指某种会重复出现的模式或规律。Pattern常常用于发现用户行为上的某些趋同特征。比如,我们发现用户都喜欢在晚上10点到11点打开某个app应用,这就是一种pattern。如果我说发现了一个pattern,很兴奋,实际上的意思就是说我发现了一个规律。规律这词,几十年前就有了,pattern这洋文多有逼格呢……&/p&&p&&b&Pivot table&/b&:数据透视表。微软数据表格工具Excel的一个重要功能,用于快速汇总统计不同维度的数据,是Excel中最常用也是最实用的功能之一。Pivot table有时也直接表述为pivot。&/p&&p&&b&Random&/b&:随机数,或者随机性。但是老外们也用它来形容“混沌”之类的意思。&/p&&p&&b&Segmentation&/b&:细分。这是我们最基本的方法,即把总体按照一定的规则分成并列的若干块。做了segmentation之后,每一个块就是一个segment。所以segmentation和segment不是同义词。Segmentation怎么用?怎么发挥最大价值?课堂上有很多案例。&/p&&p&&b&Supervised Learning&/b&:最常见的一种机器学习(machine learning)的方法。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成——例如,营销相关的创意、广告出价(排名)、目标人群的各种设置等为输入对象,广告的效果(例如点击率)就是输出值。监督学习算法是分析该训练数据,并产生一个根据已有的数据(输入对象和输出值)推算得出的映射关系,用这一映射关系去推断新的实例的情况。在刚才那个例子中,历史的创意、出价、目标人群设置数据及其相应效果的输出值可以用来推断未来在各种创意、出价和人群设置下的效果,并利用效果的推断不断调优输入对象的设置,从而让机器实现自动化的营销效果优化。&/p&&p&&b&Unique&/b&:Unique是指排重(排除重复)。Unique很少单独用,常用在计数类度量的前面,比如unique visitor,指排除对同一个访问者重复计数之后的访问者数量——同一个人今天到网站一次,明天又来一次,不能就因此变成两个人,unique visitor仍然是1。Unique visitor通常可以简化为visitor,两个可以通用。Unique visitor和unique user是唯一的两个可以加不加unique都算unique的度量。另一个例子是unique impression,即同一个人多次看同一个广告,还是计算为1次。Unique impression和impression是两个不同的度量,因为后者不排重。&/p&&p&&b&Visualization&/b&:数据可视化。是以图表、图形或者动态图形的方式直观展现数据的一种技术和学科。合理恰当的数据可视化能够极大提升数据分析的效率和效果。&/p&&p&&br&&/p&&h2&&b&Part3:互联网和互联网营销分析技术领域&/b&&/h2&&p&&b&Attribution&/b&:归因。但是实际上这个词被翻译成“归属”更好。归因是指在多种因素共同(或先后)作用造成的某一个结果时,各种因素应该占有造成该结果的多大的作用,即“功劳应该如何分配以及归属于谁”。为解决归因的问题而建立的模型被称为归因模型,即attribution modeling。但我一直可惜这个词没有翻译好,翻译成归属模型或许更容易理解。&/p&&p&&b&Bots&/b&:机器人。非人产生的流量,都被称为机器流量,即bots traffic。Bots是互联网虚假流量主要的创造者之一。参见条目:Spider。&/p&&p&&b&Cookie&/b&:Cookie并没有真正的中文翻译,cookie是在你浏览网页的时候,网站服务器放在你电脑(或移动设备)的浏览器里面的一个小小的TXT文件。这个文件里面存储了一个标识你这个人的匿名的ID,以及一些与你访问的这个网站有关的一些东西,这样当你下一次访问这个网站的时候,cookie就会知道你又来了,并且记住你上次访问时候的一些状态或者设置。Cookie以及与cookie类似的东西是互联网营销的最重要技术之一,几乎所有识别人和标记人的工作都需要cookie及类cookie技术完成。在这次培训中会有详细的说明。&/p&&p&&b&Dashboard:&/b&即仪表板(在GA中被称为信息中心), 一个包含并显示有关网站或数字营销活动综合数据的展示页面。仪表板从各种数据源提取信息,并以易于阅读的格式显示信息。&/p&&p&&b&Deep Link&/b&:没有汉语直接对应名词,我觉得直接叫“深链”好了,但不能叫做“内链”,后者是另外一个东西。Deep link历史悠久,过去把能够链接到网站的内页(即非首页的页面)的链接都称为deep link,但此后很快deep link这个词的意义就消失了,因为这样的链接实在太普通,都不需要用一个专用的名词来表述。但随着移动端的app的出现,deep link又“东(si)山(hui)再(fu)起(ran)”,特指那些能够跨过app首屏而直接链接到app的内屏(类似于网站的内页)的链接。嗯?如果这个app还没有安装过怎么办?这两期的公开课会专门讲。&/p&&p&&b&Device ID&/b&:指用户的硬件设备(尤其是指手机设备)的唯一标识代码。Device ID是这一类设备唯一标识代码的总称。安卓上的device ID一般是安卓ID或者UDID,苹果手机的device ID是IDFA。在PC端广告商用cookie追踪受众,在移动端则利用device ID。&/p&&p&&b&Event Tracking&/b&:对用户的行为直接进行定义并追踪的一种追踪方法,广泛应用在Google Analytics、Ptengine、神策分析、AdMaster的SiteMaster等用户数据监测与分析工具中。参见词条:Event。&/p&&p&&b&JavaScript&/b&:简称JS,网站页面上的程序,能够让页面除了展示内容之外,还能实现更多的程序运行和功能。网站分析工具监测代码就是JS代码,将JS代码部署在你要监测的网页中,就可以把用户在页面上的互动访问行为不间断的发送到相应数据分析工具的服务器,从而获取想要的用户数据。&/p&&p&&b&Heat Map&/b&:热图。在一个图上标明这个图上哪些是获得更多关注的部分。关注可以是眼光,也可以是鼠标点击或者手指的指指点点。热图是做行为统计学研究的好可视化工具。大家都看得懂的东西,但用好则要水平。&/p&&p&&b&HTML&/b&:Hypertext Markup Language,即超文本标记语言。HTML是一组代码,用于告诉Web浏览器如何显示网页。每个单独的代码被称为元素或标签。HTML的大多数标记都具有起始和终止元素。&/p&&p&&b&HTTP:&/b&Hypertext Transfer Protocol,即超文本传输协议。HTTP是由万维网使用的协议,用于定义数据的格式和传输方式,以及Web浏览器和Web服务器应采取什么措施来响应命令。简单讲就是看到这个东西,就知道是要传输超文本的。而超文本最主要的应用就是网页,这也是为什么网站的域名前面会有http:// 这样的标识的原因。&/p&&p&&b&HTTPS&/b&:Hypertext Transfer Protocol Secure,即超文本传输协议安全版。是HTTP的安全版本,用于定义数据如何格式化和通过Web传输。HTTPS比HTTP具有优势,因为在抓取网页时发送的数据被加密,增加了一层安全性,以便当数据从服务器发送到浏览器时,第三方无法收集有关网页的数据。不过,这对于我们从事数字营销中的部分数据追踪工作带来了困难。我在课程中会介绍这一协议带来的问题即我们如何解决。&/p&&p&&b&IP&/b&:是Internet Protocol(网络互联协议)的缩写。IP地址就是给每个连接在互联网上的主机分配的一个地址,过去用于判断不同的访问行为属于同一个人(因为都是同一个IP记录产生的访问)。但由于各种动态IP和虚拟IP技术,用它判断用户人数已经很不可行。&/p&&p&&b&Link Tag&/b&:Link Tag特指在流量源头的URL后面加上的标记,用来标明流量源头的名称和属性。最典型的link tag是Google Analytics的UTM格式的标记。目前已经成为标明paid media(花钱购买的广告流量)的标准配置。如何用好它,比你想的丰富,课堂上详解。&/p&&p&&b&Path&/b&:路径。任何构成先后次序的一系列事件或行为都可以用路径来描述。路径分析(path analysis)也是较为常用的一种分析方法。&/p&&p&&b&Pixel&/b&:本意是像素,但是在监测领域,是tracking code(监测代码)的同义词。参见后面的词条:Tracking。&/p&&p&&b&Responsive Web Design&/b&:响应式网页设计,一种允许所有内容无论屏幕尺寸如何设备如何都可以正确显示的创建网站的理念。你的网站将“响应”每个用户的屏幕尺寸。&/p&&p&&b&Spider&/b&:蜘蛛,也称Bot(机器人),Crawler(爬虫)。蜘蛛是一个自动程序,它的作用是访问收集整理互联网上的网页、图片、视频等内容。比如百度蜘蛛会将互联网的各种内容抓取回来并分门别类建立索引数据库,使用户能在百度搜索引擎中搜索到想要的内容。同理,Google使用Bot抓取网站,以便将其排名并添加到Google搜索。当垃圾邮件来源的Bot出于恶意原因访问网站时,有时能在Google Analytics中被显示为垃圾邮件。&/p&&p&&b&Tracking&/b&:翻译为跟踪,就是数据分析工具跟踪用户各种行为的“跟踪”,用户所有的线上行为都可以被跟踪。监测这个词的“监”这个字,就是tracking。而测,则是measurement。所以监测这个汉语词,最准确的翻译就是tracking and measurement。监测需要用一定的技术手段实现,其中核心技术之一就是监测代码(tracking code),是一串可以发挥监测功能的程序(很多都是脚本语言编写,比如JavaScript语言)。&/p&&p&&b&UID&/b&:是User Identification的缩写,即用户ID。&/p&&p&&b&VAST&/b&:即Digital Video Ad Serving Template。一种实现视频程序化广告的基础性协议。目前是4.0版本。&/p&&p&&br&&/p&&h2&&b&Part4:流量与用户行为领域的名词&/b&&/h2&&p&&b&Acquisition&/b&:泛指用户获取。在用户运营中使用的极为广泛,做任何产品的运营的第一步就是获取用户,比如在网页端的推广流量的获取、App推广中用户的下载等。&/p&&p&&b&Action&/b&:特指用户需要做出某个动作的交互行为。例如,添加商品到购物车、留言、下载等,都属于action。Action实际上是Engagement的子集。参见词条:Engagement。&/p&&p&&b&Bounce Rate&/b&:跳出率,即进入网站后就直接离开网站的人数所占百分比。例如,如果100人访问网站,其中50人立即离开,网站的跳出率为50%。网站的目标是尽可能低的跳出率,平均值往往在40-60%之间。会在课堂上讲解。&/p&&p&&b&Direct&/b&:翻译为直接访问,比如用户直接在浏览器输入网址访问,或者用户直接点击收藏夹里的网址进行访问,都会被记为直接访问。除了上述情况,从QQ客户端聊天窗口或微信客户端的链接直接访问网站的也会被记为直接访问。&/p&&p&&b&Engagement&/b&:没有特别合适的中文翻

我要回帖

更多关于 手机换电池后还是不行 的文章

 

随机推荐