求excel数值不能求和线形代数电子版

拒绝访问 |
| 百度云加速
请打开cookies.
此网站 () 的管理员禁止了您的访问。原因是您的访问包含了非浏览器特征(3a0dcef-ua98).
重新安装浏览器,或使用别的浏览器  -没有动机不要上网创业
  大部分的人,进入电子商务都是跟着潮流走。要不然就是&害怕丧失机会&,要不然就是&害怕跟不上潮流&。因此这些人在从事电子商务时,对网络纯粹是一种运用,而没有一个明显的动机。  
  当大家看到&亚马逊&很成功,就一窝峰的成立网络书店,大家听说E-bay股价表现好,就成立一大堆拍卖网,既没有创意,没有动机,这是盲目跟随的结果,既然不能提供特别的服务,网站很快的就被淘汰。如果只是模仿其表面的服务,试问多一个同构型的网站,有何存在的意义?
  所谓动机的重要性,就是自己在建立网络事业时自已去定义一个网站经营的走法。例如教育无忧网站(),就是有荐于教育培训市场的不断发展和管理机制不完善,立志要解决上班族的求职、培训、职场问题等等。一种强烈而明显的动机,附予它一个特殊性,因为发现了上班族的需求因而满足上班族的需求。
  从事电子商务,应该做出和别人不一样的东西。茫茫&网&洋放眼望去哪一家网络经营者的动机不是看上了商机,期待能从中尽快获利?然而,如果没有所谓&因需求需要被满足的动机&,如果只是着眼于商机而无创意地模仿别人的网站经营,无疑是&tooslow,
  toolate!&(太慢,太晚了)所谓动机就是找到一个没有人解决的大问题,再运用网络强大的力量去解决这个问题,如此付予internet生命,也将成就网站的价值。
  -没有创意,不要上网创业
  所谓创意是表达动机的方式。否则光有动机,只是陈述个人想法,却无法具体呈现。在网络的世界里,创意占有举足轻重的地位,因为网络是免费的使用,从使用者第一次进入所接受的经验值,就决定了是否会继续进来,因此从最初的创意表现是否留下深刻印象就一战决生死了。
  &NOCREATIVE,NOOPPERTUNI鄄TY!&(没有创意,没有机会)网络的世界是一种虚拟的服务,如果网友第一次上来,没有将收藏起来,就没有第2次来访的机会,正如前面提过,在网络的世界里,只有第一品牌,没有第2品牌,就像如果你已经有一个信赖的医生照顾你的身体,就不必劳烦找第2个医生;同理可证,如果有一家长期来往的银行,也很难再找另一家银行来往的道理是一样的。
  然而任何电子商务都有比你更早进入的对手,这时候只能以更大的创意来弥补别人已经比你先进入的优势。就像发现中子和原子一样,第一个发现的人,当然获得最大的荣謍和名气。你要自问自己的创意,是否有令人&哇!&一声的爆发力。是否,你的创意别人无法和你相比。
  其实只要有人才,作多少的网站都没问题,困难的是,如何将这些网站整合起来,而不要让使用者跳来跳去,是较难的创意。
  举例来说,过去的教育类网站,透过广告点进来的流量很少,解决这个问题的创意,是将教育网整合到相关联的网站来带流量:举一个例,求职网站中,如果有一个工作机会是需要&英文&的能力,系统会跳出一个英文课程的链接,一点,可以马上跳过去连结教育网课程,因此,网站使用者,在一种自然的状态下,使用教育网的服务。
  -没有乐趣,不要上网创业
  由于网络是一个虚拟的世界,所提供的是非具体的服务,比起传统世界中所提供的实体价值,网络要说服别人更难!因此成立网络公司,经营网络事业的过程是痛苦的。
  因此,如果你网络创业的目的是以商业利益为目标,而没有别的乐趣,一定会因为经营网络事业的前几年不能赚钱,而感到焦虑和痛苦,因此无法继续经营下去。必须要有赚钱以外的目的才能持续下去。
  那么乐趣在哪里?
  乐趣在于给予网络这个工具某种生命,因此造就了人性化的求职管道,帮助了许多人,眼见理想一步一步实现,即使网站在没赚钱的前两年,仍能乐此不疲的坚持下去。在网站达到一定的规模,乐趣就在于更大的使命,用既有的舞台和更多的资源,挑战过去别人没有作过的事。
  诚然所谓的乐趣,并非是每日都很快乐的意思。其实也有很大的压力、危机感,也会紧张&&就好像走在大河中央,只能前进不能后退。
  如何才能将这种工作压力消化呢?一方面是全心全力把事情做好,心中成败得失的压力不要过大。另一方面就是要和同事一齐发展种种创意,造就更多的可能性,使创业之路不会孤单。
  网上创业DIY手册之费用篇
  网上创业费用知多少
  某些网站到目前为止仍然实行免费政策,比如淘宝,但是并不是所有网站都有&免费的午餐&。据笔者了解,易趣需要对创业者收取少量的费用。虽然费用少,但是由于产生费用相对比较复杂,很多创业者仍然对此不是非常了解。
  本期,笔者特意从易趣了解了收费的具体情况,并综合其他网站情况,为读者讲解网上创业的费用。网上卖东西需要支付三种费用,分别为:登陆费、交易服务费和其他选项费。卖家所要支付的费用=登陆费+交易服务费+其他选项费。三种费用根据所卖东西的不同和所卖方式的不同,产生的费用数目也是不同的。
  登陆费
  所谓登陆费就是物品登陆所需的费用,即对您登陆物品进行销售所收取的费用。该费用通常在0.05元到6.00元之间。这部分费用是不退还的。登陆费因出售方式不同而产生的费用也不同,起始价或者底价方式包括1元以下、1元到99元、100元到499元、500元到1999元、2000元以上、汽车/摩托车5个等级,登陆费分别为0.05元、0.25元、0.50元、1.50元、3.00元。以定价方式的登陆费要比起始价或者底价方式贵一倍。
  物品的登陆费多数量荷兰式竞标和定价物品的登陆费是按物品的起始价收取的。登陆费是起始价或定价物品价格与物品数量的乘积的百分比。多数量物品登陆的最高登陆费为3.00元。房产信息发布中介登陆费为1元,个人住宅出售为12元,其他为8元。
  ◆您必须在原物品下线后的90天内重新提交该物品。
  ◆只在第一次重登物品时才有此资格,以后再重登该物品就不符合条件了。
  ◆原登物品和重登物品都必须使用在线竞标卖法、定价卖法,或一口价竞标卖法(而非仓储式卖法)。
  ◆原登物品和重登物品都必须是单一数量(而非多数量物品或荷兰式竞标物品)。
  ◆重登物品的起始价不得高于原登物品的起始价。
  ◆如果原登物品没有底价,那么重登物品也不能有底价;如果原登物品有底价,那么重登物品的底价不得高于原登物品的底价。
  ◆如果重登物品第二次仍未售出,登陆费不予退还。
  交易服务费
— 岚焕 @ 4:53 pm
&2005中国十大电子商务网站&评选活动建立了全面的评价体系,对参选的网站,按商务模式分三组进行广泛测评与深入比较,将会分类推选出十大电子商务网站,它们将成为未来一年中引领互联网电子商务发展潮流的核心力量。 一、活动宗旨 1. 通过中国十大电子商务网站的评选发掘那些发展迅速、未来成长性好的电子商务网站。促进电子商务网站不断提高管理水平、增强网站竞争实力。 2. 推动互联网与中国主流电子商务的对接,推动整个中国电子商务的成熟; 3. 解析信息技术推动电子商务变革的动因,致力推进互联网与主流电子商务的融合。 4. 提倡科学、公正的评选风气。 二、评选原则 1. 科学:完善、开放的评价体系; 2. 权威:在互联网领域多年的积累,相关活动的品牌效应日益明显,并由中国互联网电子商务部专家多方面评估得出; 3. 专业:专业团队统一严格按照操作规程执行; 4. 公正:完全独立运作,不受外界因素干扰; 5. 广泛:评选将涉及500个以上各类主流电子商务网站。 2005年度中文十大综合B2B电子商务评选结果 1.阿里巴巴():马云带领的阿里巴巴,连续五年被评为全球最大B2B网站; 2.慧聪商务网():郭凡生带领的全行业电子商务网站,是目前国内行业资讯最全、最大的行业门户平台; 3.买麦网():中国万网旗下中文B2B平台,由IDG投资亿元创办,03年底杀入电子商务B2B市场,速度掘起; 4.中国产品平台():张冀光创立铭万公司旗下电子商务网站,05年初推出,曾仅2个月时间突进全球两千名内,成为新一支中文电子商务主力军,并得到软银亚洲上千万美元巨额投资,让铭万成为互联网复苏潮里备受关注的公司; 5.中国商品网(http://ccn.):是国家商务部公共商务信息服务项目之一,也有五年历史,拥有近百万家企业,两百多万种产品的详细资料,称为中国产品的动态普查点; 6.中国制造网(htp://cn.made-):最资深的全球采购网,它的信息平台和优质商业服务更为中国对内对外贸易的发展提供了强有力的支持; 7.环球资源网():环球资源是最早一家在美国纳斯达克上市并盈利的B2B网上交易中枢。34年来,环球资源一直致力于提供专业的贸易资讯,并与全球最大的网上交易平台eBay公司结成战略联盟,成为中文B2B平台中的又一强档; 8.中国市场联盟():中国第一商贸联盟,以行业联盟理念,迅速建立起自己的庞大的商贸联盟组织,是05年度潜力最大的B2B平台,专家预测,中国市场联盟庞大商贸联盟模式,在今后一两年内必将引发电子商务界一个跨时代的变革; 9.SOHU商机(http://www.sohu.net):中国第二门户搜狐网旗下电子商务平台,凭借搜狐的门户影响,以及长期以为为中国企业提供全面性服务,在中国电子商务界起到领头作用; 10.跨国采购网(http://www.globalimporter.net):中国最专业的外贸信息门户网站,03年建立,在短短的半年时间内迅速赢得了外贸行业人士的信任,至今已拥有近七十万商家会员。
— 岚焕 @ 3:15 pm
原著:&Hajime BABA /
&&翻译: / 袁 黄琳 &krenyAT& 创作于:2003/12 &&最后更新: 日 3:53 &关键词:pagerank, google, link翻译说明: 一些语句的翻译上使用了意译,使得尽可能得符合中文的理解和说明思路。版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明
本文对作为评价甚高的搜索引擎 Google
的核心技术之一 PageRank (网页等级)的基本的概念和评价原理进行解释。
★() 拙著『Namazu系统的构筑和活用』已作修订。 详情请看。
★() 与 Google 有关的在线新闻报道一览(日语)已被分离到 。
★() Namazu 的索引中使用的计算 PageRank 的 Perl 脚本
公开下载。
最近,搜索引擎 非常引人注目。Google 是基于现担任 CEO 的 Larry Page 和担任总经理的 Sergey Brin (2001年2月)在就读于美斯坦福大学研究生院时所开发的搜索引擎的一种检索服务。Google 从1998年9月开始服务,但 Netscape Communications 在 Google 的测试阶段就开始与其合作,美国 Yahoo! 公司也从2000年6月起将默认搜索引擎(美国 Yahoo! 不能检索时作为增补的搜索引擎)由原先合作的 Inktomi 转换为了 Google。日语版 Google 在2000年9月正式登场,现已被 BIGLOBE(NEC)所采用。 (注:2001年4月 Yahoo! JAPAN 和 @NIFTY,7月索尼,2002年1月 Excite 也相继与 Google 建立了协作关系)。
Google 被评价的优点不仅仅在于去除无用的(广告)标语构成单一页面的功能、独自的 Cache 系统、动态制成摘要信息、为实现高速检索而设置的分散系统(数千台规模的Linux群集器)等,而其中最大的优点正是它检索结果的正确性。一种能够自动判断网页重要性的技术「PageRank是(网页等级)」就是为此而设计的一种技术。 本文的目的就是以尽可能浅显易懂的语言来说明 PageRank 系统的概要和原理。
以下是 PageRank 的一篇基础文章。
Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, ‘The PageRank Citation Ranking: Bringing Order to the Web’, 1998,
为了更高效地计算 PageRank,以下是改良以后的一篇论文。
Taher H. Haveliwala, ‘Efficient Computation of PageRank’, Stanford Technical Report, 1999,
另外,以下是 PageRank 的演示用资料(PowerPoint)。
Larry Page, ‘PageRank: Bringing Order to the Web’, http://hci.stanford.edu/~page/papers/pagerank/ (已失效)
接下来就对这两篇文章(另加一篇资料)进行基本说明。 首先,用简单的例子来解说 PageRank 的概念,再归结到使用超链接关系的排序系统来解决大规模疏松疏矩阵的特性值的问题。然后我们会接触一些在现实世界中应用基本模型时出现的问题和对应方法。接下来,为了探讨是否能够作为「个人化 PageRank」使用,进行对免费全文检索系统 Namazu 的安装实验并对其结果进行阐述。最后发表我对 PageRank 的个人见解。
另外,为了能够理解以下的说明内容,需要大学基础课程程度的数学知识(尤其是线形代数)。然而为使文科生也能够顺利读下去,尽可能地不用算式来说明问题,同时,为了加入笔者个人的见解,没有加入像原文那么多的算法和数字,也存在许多不够严密和欠正确的地方,事先在次声明。具体内容请参照原文。
PageRank(TM) 是美国 Google 公司的登记注册商标。
PageRank 是基于「从许多优质的网页链接过来的网页,必定还是优质网页」的回归关系,来判定所有网页的重要性。
在以下冗长的说明中,许多部分大量地使用了专业用语,会造成理解上的困难。这一章虽然准备集中于定性而简单的解说,但是,即使如此也会有怎么也不明白的时候,此时只要能够理解「从许多优质的网页链接过来的网页,必定还是优质网页」这一思考方法也就非常得可贵了。因为在所有几个要点中,这个是最重要的思考方法。
来自于 Google 自己的介绍是象以下一样解说的。
关于PageRank &&&&PageRank,有效地利用了 Web 所拥有的庞大链接构造的特性。 从网页A导向网页B的链接被看作是对页面A对页面B的支持投票,Google根据这个投票数来判断页面的重要性。可是 Google 不单单只看投票数(即链接数),对投票的页面也进行分析。「重要性」高的页面所投的票的评价会更高,因为接受这个投票页面会被理解为「重要的物品」。&&&&根据这样的分析,得到了高评价的重要页面会被给予较高的 Page Rank(网页等级),在检索结果内的名次也会提高。PageRank 是 Google 中表示网页重要性的综合性指标,而且不会受到各种检索(引擎)的影响。倒不如说,PageRank 就是基于对&使用复杂的算法而得到的链接构造&的分析,从而得出的各网页本身的特性。&&&&当然,重要性高的页面如果和检索词句没有关联同样也没有任何意义。为此 Google 使用了精练后的文本匹配技术,使得能够检索出重要而且正确的页面。
通过下面的图我们来具体地看一下刚才所阐述的算法。具体的算法是,将某个页面的 PageRank 除以存在于这个页面的正向链接,由此得到的值分别和正向链接所指向的页面的 PageRank 相加,即得到了被链接的页面的 PageRank。
PageRank 概念图。(引自 Page et al.(1998) Figure 2 ‘Simplified Page Calculation’)
让我们详细地看一下。提高 PageRank 的要点,大致有3个。
反向链接数 (单纯的意义上的受欢迎度指标)
反向链接是否来自推荐度高的页面 (有根据的受欢迎指标)
反向链接源页面的链接数 (被选中的几率指标)
首先最基本的是,被许多页面链接会使得推荐度提高。也就是说「(被许多页面链接的)受欢迎的页面,必定是优质的页面」。所以以反向链接数作为受欢迎度的一个指标是很自然的想法。这是因为,&链接&是一种被看作「可以看看这个页面/这个页会有用」的推荐行为。但是,值得骄傲的是 PageRank 的思考方法并没有停留在这个地方。
也就是说,不仅仅是通过反向链接数的多少,还给推荐度较高页面的反向链接以较高的评价。同时,对来自总链接数少页面的链接给予较高的评价,而来自总链接数多的页面的链接给予较低的评价。 换句话说「(汇集着许多推荐的)好的页面所推荐的页面,必定也是同样好的页面」和「与感觉在被胡乱链接的链接相比,被少数挑选出的链接肯定是优质的链接」这两种判断同时进行着。一方面,来自他人高水平网页的正规链接将会被明确重视,另一方面,来自张贴有完全没有关联性的类似于书签的网页的链接会作为「几乎没有什么价值(虽然比起不被链接来说好一些)」而被轻视。
因此,如果从类似于 Yahoo! 那样的 PageRank 非常高的站点被链接的话,仅此网页的 PageRank 也会一下子上升;相反地,无论有多少反向链接数,如果全都是从那些没有多大意义的页面链接过来的话,PageRank 也不会轻易上升。不仅是 Yahoo!, 在某个领域中可以被称为是有权威的(或者说固定的)页面来的反向链接是非常有益的。但是,只是一个劲地在自己一些同伴之间制作的链接,比如像「单纯的内部照顾」这样的做法很难看出有什么价值。也就是说,从注目于全世界所有网页的视点来判断(你的网页)是否真正具有价值。
综合性地分析这些指标,最终形成了将评价较高的页面显示在检索结果的相对靠前处的搜索结构。
以往的做法只是单纯地使用反向链接数来评价页面的重要性,但 PageRank 所采用方式的优点是能够不受机械生成的链接的影响。 也就是说,为了提高 PageRank 需要有优质页面的反向链接。 譬如如果委托 Yahoo! 登陆自己的网站,就会使得 PageRank 骤然上升。但是为此必须致力于制作(网页的)充实的内容。这样一来,就使得基本上没有提高 PageRank 的近路(或后门)。不只限于PageRank (Clever 和 HITS 等也同样),在利用链接构造的排序系统中,以前单纯的 SPAM 手法将不再通用。这是最大的一个优点,也是 Google 方便于使用的最大理由。(虽然是最大的理由,但并不是唯一的理由。)
在这里请注意,PageRank 自身是由 Google 定量,而与用户检索内容的表达式完全无关。就像后边即将阐述的一样,检索语句不会呈现在 PageRank 自己的计算式上。不管得到多少的检索语句,PageRank 也是一定的、文件固有的评分量。
PageRank 的定性说明大致就是这样一些。但是,为了实际计算排列次序、比较等级,需要更定量性的讨论。以下一章将做详细的说明。
我们感兴趣的是,在有像超级链接构造那样的互相参照关系的时候,定量地知道哪一个页面是最「重要」的。换句话大胆地说,这个也就是严密计算「应该从哪一页开始读取」这个指标的过程。就算从谁都不看的小页面开始读取也没有办法。
那么,一般地说为了使得像 Web 那样的超级链接构造能够反映在在排列次序上,需要在计算机上建立超级链接构造的数字模型。 怎么模型化需要取决于安装者的方针所以一概而论,但是如果应用图表理论来观察超级链接构造的话,最终常常回到线形代数考虑方法上去。这对于 PageRank 也是一样的。
计算方法的原理
作为最基本的考虑方法,就是用行列阵的形式来表达链接关系。从页面 i 链接到另一张页面 j 的时,将其成分定义为1,反之则定义为 0 。即,行列阵 A 的成分 aij 可以用,
(从页面 i 向页面 j 「 有 」 链接的情况)
(从页面 i 向页面 j 「没有」链接的情况)
来表示。文件数用 N 来表示的话,这个行列阵就成为 N&N 的方阵。这个相当于在图表理论中的「邻接行列」。也就是说,Web 的链接关系可以看做是采用了邻接关系有向图表 S。总而言之,只要建立了链接,就应该有邻接关系。
(*注)由点和点连接的线构成的图形被称为「图表(graph)」。这些点被称为「顶点(vertex)」或者「节点(node)」;这些线被称为「边(edge)」或者「弧(arc)」。图表分为两类,&边&没有方向的图表被称为「无向图表(undirected graph)」,&边&带有方向的图表被称为「有向图表(directed graph)」。把有向图表想像成单向通行的道路就可以了。 图表能用各种的方法来表示,但一般用在数据结构上的是「邻接行列(adjacency matrix)」和「邻接列表(adjacency list)」。需要注意的是,如果是无向图表,邻接行列 A 就成为了对称行列,而如果是有向图表,A 就会成为不对称行列。
以下是用位图表示的 Apache 的在线手册(共128页)的邻接行列。当黑点呈横向排列时,表示这个页面有很多正向链接(即向外导出的链接);反之,当黑店呈纵向排列时,表示这个页面有很多反向链接。
邻接行列的例子(采用了Apache 的在线手册)
PageRank 的行列阵是把这个邻接行列倒置后(行和列互换),为了将各列(column)矢量的总和变成 1 (全概率), 把各个列矢量除以各自的链接数(非零要素数)。这样作成的行列被称为「推移概率行列」,含有 N 个概率变量,各个行矢量表示状态之间的推移概率。倒置的理由是,PageRank 并非重视「链接到多少地方」而是重视「被多少地方链接」。
PageRank 的计算,就是求属于这个推移概率行列最大特性值的固有矢量(优固有矢量)。
这是因为,当线性变换系 t&& 渐近时,我们能够根据变换行列的&绝对价值最大的特性值&和&属于它的固有矢量&将其从根本上记述下来。换句话说,用推移概率行列表示的概率过程,是反复对这个行列进行乘法运算的一个过程,并且能够计算出前方状态的概率。
再者,虽然听起来很难,但是求特性值和固有矢量的值是能够严密分析的一种基础的数学手段。我们能够自由地给矢量的初始值赋值,但是因为不断地将行列相乘,得到的矢量却会集中在一些特定数值的组合中。我们把那些稳定的数值的组合称为固有矢量,把固有矢量中特征性的标量(scalar)称为特性值,把这样的计算方法总称为分解特性值,把解特性值的问题称为特性值问题。
(*注) 对 N 次的正方行列 A 把满足 Ax =&x 的数 & 称为 A 的特性值,称 x 为属于 & 的固有矢量。如果你怎么也不能适应行列的概念的话,你也可以考虑 N&N 的二元排列就可以了。同时,也可以把矢量考虑成为长度为 N 的普通的(一元)排列就可以了。
简单的例子
让我们用简单的例子来试着逐次计算 PageRank 。首先考虑一下有像下图表示那样的链接关系的7个HTML文件。并且,这些HTML文件间的链接关系只是闭合于这1-7的文件中。也就是说,除了这些文档以外没有其他任何链接的出入。另外请注意,所有的页面都有正向和反向链接(即没有终点),这也是后面将提出的一个重要假定,在此暂且不深入探讨。
表示页面间互相链接关系的推移图
首先,把这张推移图图表构造的邻接列表表示为排列式,就有以下式子。即,根据各个链接源ID列举链接目标的ID。
链接目标 ID
2,3 ,4,5, 7
以这个邻接列表中所表示的链接关系的邻接行列 A 是以下这样的 7&7 的正方行列。一个仅有要素 0 和 1 位图行列(bitmap matrix)。横向查看第 i 行表示从文件 i 正向链接的文件ID。
0, 1, 1, 1, 1, 0, 1;
1, 0, 0, 0, 0, 0, 0;
1, 1, 0, 0, 0, 0, 0;
0, 1, 1, 0, 1, 0, 0;
1, 0, 1, 1, 0, 1, 0;
1, 0, 0, 0, 1, 0, 0;
0, 0, 0, 0, 1, 0, 0;
PageRank 式的推移概率行列 M ,是将 A 倒置后将各个数值除以各自的非零要素后得到的。即以下这个 7&7 的正方行列。横向查看第 i 行非零要素表示有指向文件 i 链接的文件ID(文件 i 的反向链接源)。请注意,各纵列的值相加的和为 1(全概率)。
1, 1/2, 0, 1/4, 1/2, 0;
1/5, 0, 1/2, 1/3, 0, 0, 0;
1/5, 0, 0, 1/3, 1/4, 0, 0;
1/5, 0, 0, 0, 1/4, 0, 0;
1/5, 0, 0, 1/3, 0, 1/2, 1;
0, 0, 0, 0, 1/4, 0, 0;
1/5, 0, 0, 0, 0, 0, 0;
表示 PageRank 的矢量 R (各个的页面的等级数的队列),存在着 R = cMR 的关系(c 为定量)。在这种情况下,R 相当于线形代数中的固有矢量,c 相当于对应特性值的倒数。为了求得 R ,只要对这个正方行列 M 作特性值分解就可以了。
在分解特性值时有相应的各种各样的数值分析法,但是本文将不在这里对各种方法详细说明,请读者自己去阅读一本恰当的教科书(在你的暑假里一定有这么一本被埋没的教科书)。在此,我们就暂且使用决 GNU Octave 这个计算程序实际计算一下特性值和固有矢量。
(*注) GNU Octave ,是支持数值计算,类似于描述性出色的 MATLAB 的编程语言。扩展后的处理语言更适合于行列演算,但基本上和C语言的语风相像,因此可读性很高。详细请参照 。 当然,除了Octave以外
也是非常不错的语言,但是根据 GPL, Octave 是最容易得到的。
下面我们举一个实际例子。如果不太明白以下例子在做什么的话,只要认为我们能够使用 Octave 这个程序来解特性值问题即可。
首先,使用恰当的编辑器制作以下 Octave 脚本。(在行尾加上分号就能消去多余的结果输出,不过,此次为了说明特意去掉了。)
% cat pagerank.m
#!/usr/bin/octave
## pagerank.m - 计算 PageRank(TM) 用的简单的 GNU Octave 脚本
##设置计时器。
## 根据PageRank 的定义,将从文件 i 链接到文件 j 的链接状态的推移概率行列定义为 M(i,j)
0, 1, 1/2, 0, 1/4, 1/2 , 0;
1/5, 0, 1/2, 1/3, 0, 0, 0;
1/5, 0, 0, 1/3, 1/4, 0, 0;
1/5, 0, 0, 0, 1/4, 0, 0;
1/5, 0, 0, 1/3, 0, 1/2, 1;
0, 0, 0, 0, 1/4, 0, 0;
1/5, 0, 0, 0, 0, 0, 0;
##计算 全部 M 的特性值和固有矢量列的组合。
[V,D]= eig(M)
## 保存与绝对价值最大的特性值对应的固有矢量到EigenVector。
EigenVector = V(:, find(abs(diag(D))==max(abs(diag(D)))))
## PageRank 是将 EigenVector 在概率矢量上标准化后得到的值。
PageRank = EigenVector./ norm(EigenVector,1)
## 输出计算时间。
elapsed_time = toc()
(: 修正上述脚本的错误。)
误: EigenVector = V(:, find(max(abs(diag(D))))
正: EigenVector = V(:, find(abs(diag(D))== max(abs(diag(D)))))
用 Octave 运行这个 pagerank.m 脚本后在标准输出中得到以下结果。
% octave pagerank.m
GNU Octave, version 2.0.16 (i586-redhat-linux-gnu).
Copyright (C) , , 2000 John W. Eaton.
This is free software with ABSOLUTELY NO WARRANTY.
For details, type `warranty'.
0.00 0.00 0.00 0.00000
0.00 0.33 0.00 0.00000
0.00 0.33 0.00 0.00000
0.00 0.00 0.00 0.00000
0.00 0.33 0.00 1.00000
0.00 0.00 0.00 0.00000
0.00 0.00 0.00 0.00000
Columns 1 through 3:
0.69946 + 0.040 + 0.040 + 0.00000i
0.38286 + 0.00000i -0.28715 + 0.15402i -0.28715 - 0.15402i
0.32396 + 0.00000i -0.07422 - 0.10512i -0.07422 + 0.10512i
0.24297 + 0.007 - 0.207 + 0.24933i
0.41231 + 0.00000i -0.28417 + 0.44976i -0.28417 - 0.44976i
0.10308 + 0.051 - 0.151+ 0.13211i
0.13989 + 0.00000i -0.22243 - 0.11722i -0.22243 + 0.11722i
Columns 4 through 6:
0.56600 + 0.000 + 0.00000i -0.32958 + 0.00000i
0.26420 - 0.020 + 0.084 + 0.00000i
-0.10267 + 0.14787i -0.187i 0.24608 + 0.00000i
-0.11643 + 0.02319i -0.11643 - 0.02319i -0.200i
-0.49468 - 0.14385i -0.49468 + 0.162 + 0.00000i
-0.166i -0.14749 - 0.38066i -0.64118 + 0.00000i
0.03106 - 0.306+ 0.320 + 0.00000i
0.00000 + 0.00000i
-0.40825 + 0.00000i
-0.00000 + 0.00000i
0.00000 + 0.00000i
-0.00000 + 0.00000i
0.81650 + 0.00000i
-0.40825 + 0.00000i
Columns 1 through 3:
1.00000 + 0.000 + 0.000 + 0.00000i
0.00000 + 0.00000i -0.44433 + 0.200 + 0.00000i
0.00000 + 0.000 + 0.00000i -0.44433 - 0.23415i
0.00000 + 0.000 + 0.000 + 0.00000i
0.00000 + 0.000 + 0.000 + 0.00000i
0.00000 + 0.000 + 0.000 + 0.00000i
0.00000 + 0.000 + 0.000 + 0.00000i
Columns 4 through 6:
0.00000 + 0.000 + 0.000 + 0.00000i
0.00000 + 0.000 + 0.000 + 0.00000i
0.00000 + 0.000 + 0.000 + 0.00000i
0.02731 + 0.300 + 0.000 + 0.00000i
0.00000 + 0.031 - 0.300 + 0.00000i
0.00000 + 0.000 + 0.00000i -0.16595 + 0.00000i
0.00000 + 0.000 + 0.000 + 0.00000i
0.00000 + 0.00000i
0.00000 + 0.00000i
0.00000 + 0.00000i
0.00000 + 0.00000i
0.00000 + 0.00000i
0.00000 + 0.00000i
-0.00000 + 0.00000i
EigenVector =
PageRank =
elapsed_time = 0.063995
Octave 的输出中,特性值被表示为对角行列 D 的对角成分,各个特性值相对应的固有矢量被表示为行列 V 对应列的列矢量。也就是说 M * V = D * M 成立。 如果包含复数特性值的话这里的特性值有7个,其中绝对价值最大的特性值 & 是&=1。与之相对应的固有矢量为实矢量:
EigenVector =
即行列 V 的第1列。请注意,这个求得的固有矢量中概率矢量(要素的和等于1的 N 次元非负矢量)没有被标准化,只是矢量的「大小」等于 1。 用算式来表达就是,&Spi &1 ,&S(pi)2=1。 在这里,对概率矢量进行标准化
PageRank =
PageRank 就是排位了。 注意,全部相加的和为 1。 计算只用了0.064秒。
求得的 PageRank 的评价
将 PageRank 的评价按顺序排列 (PageRank 小数点3位四舍五入)。
名次 PageRank
发出链接ID
首先应该关注的是,PageRank 的名次和反向链接的数目是基本一致的。无论链接多少正向链接都几乎不会影响 PageRank,相反地有多少反向链接却是从根本上决定 PageRank 的大小。但是,仅仅这些并不能说明第1位和第2位之间的显著差别(同样地、第3位和第4位,第6位和第7位之间的差别)。总之,绝妙之处在于 PageRank 并不只是通过反向链接数来决定的。
让我们详细地看一下。ID=1 的文件的 PageRank 是0.304,占据全体的三分之一,成为了第1位。特别需要说明的是,起到相当大效果的是从排在第3位的 ID=2 页面中得到了所有的 PageRank(0.166)数。ID=2页面有从3个地方过来的反向链接,而只有面向 ID=1页面的一个链接,因此(面向ID=1页面的)链接就得到了所有的 PageRank 数。不过,就因为 ID=1页面是正向链接和反向链接最多的页面,也可以理解它是最受欢迎的页面吧。
反过来,最后一名的 ID=6 页面只有 ID=1 的15%的微弱评价,这可以理解为是因为没有来自 PageRank 很高的 ID=1 的链接而使其有很大地影响。 总之,即使有同样的反向链接的数目,链接源页面评价的高低也影响 PageRank 的高低。
表示页面互相的链接关系的推移图(加入了PageRank)
实际地试着计算一下PageRank的收支。因为&=1所以计算很简单,只要将自各页的流入量单纯相加即可。譬如 ID=1 的流入量为,
流入量=(ID=2发出的Rank)+(ID=3发出的Rank)+(ID=5发出的Rank)+(ID=6发出的Rank)
= 0.166+0.141/2+0.179/4+0.045/2
在误差范围内PageRank的收支相符合。其他页面ID的情况也一样。以上的 PageRank 推移图正表示了这个收支。沿着各自的链接发出的PageRank等于此页面原有的PageRank除以发出链接数的值,而且和各自的页面的PageRank收支相平衡。
不过,这样绝妙均衡的本身,对理解线形代数的人来说当然不会是让人惊讶的事情。因为这正是「特性值和固有矢量的性质」,总之这样被选的数值的组就是固有矢量。但即使是这样,实际试着确认一下的话,已经能够很好地使用PageRank的方法来考虑了。
以上就是 PageRank 的基本原理。 Google 做的就是大规模地处理这样的非常特性值问题。
PageRank 的基本考虑方法并不是很难的东西。实用效果中的巨大成分并不是复杂离奇的算法,而是进行简单的线性变换,倒不如都属于简明直观的类别吧。但是,实际使用 Web 超级链接构造来计算 PageRank 的话,不是简单地能够用嘴巴来说明的东西。主要的困难主要有二个。一、由来于纯粹假设的数值模型和现实世界的不同;二,在实际数值计算上(专门技术的)困难。
准备:数学用语(主要概率过程)的解说
推移概率行列和概率过程上的马尔可夫过程存在很深的关系。本章先离开与 PageRank 本身的说明,预先说明几个呈现在概率过程上的数学用语。因为会设计相当难的部分,如果不能够理解也可以跳过这里。(也可能是我的说明方法不好) 同时,请注意这里几乎没有证明就直接使用了。详细的解说请阅读教科书。
从有向图表S的状态 i 出发,将有限时间之后再次回复到状态 i 的概率作为 1 时,也就是说,当沿着(有向)图表的方向前进能够回到原来位置的路径存在的时候,i 就被成为「回归」。不能回归的状态被称为「非回归」。从状态 i 出发,当通过有限次数的推移达到状态 j 的概率非负的时候,我们就说「从状态 i 到达状态 j 是可能的」。当反方向也可能到达的时候,我们称「i 和 j 互相可能到达」。从状态 i 不能到达其他任何状态的时候,称 i 为「吸收状态」。
从邻接行列 A 所决定的图表(graph)的任意顶点出发,指向其他任意的顶点图表的路径能够像箭头那样到达时被称为「强联结」( 也被称为「分解不能」)。强联结,等价于从任意状态到任意状态可以互相到达。邻接行列 A 的成分中有很多 0 时,强联结性就会有问题。注意,如果全部成分都为 aij &0 的话,则都属于强联结。因为,对应的 马尔可夫链的样本路径表示 S 的任意两点间以正的概率来往通行。
我们可以把全体状态以等价类(或者回归类)来划分。在这里,回归类是指链接所围成的范围。属于一个等价类的状态可以互相到达。从一个类出发以正的概率进入到其他的类的可能性也是存在的。可是很明显,在这种情况下不可能回复到原来的类。不然的话,这两个类就归于等价类了。下图表示了,当 T 作为非回归性的等价类、R 作为回归性等价类时,虽然存在 马尔可夫链 既不来自回归类,也不来自非回归类的情况,但如果一旦来自前两者的话,就不再会回到非回归类中了。
回归、非回归示意图(修改了小谷(1997)的图11.1)
这个等价关系中只有一个回归类的时候,那个 马尔可夫链就被称为「最简」。换句话说,全部的状态之间互相可以到达时就被称为最简。最简时都是强联结。
互相完全没有关联的邻接行列(或推移概率行列),乘以恰当的置换行列(掉换行和列)以后得到
P = | P1 0 |
这样的关系。这表示回归类 P1 和 P2 间完全不存在直接的链接关系。
回归类、非回归类掺杂在一起的邻接行列(或推移概率行列),乘以恰当的置换行列后得到,
P = | P1 0 |
这样的关系(Q&0)。此时,P1是非回归类,P2是回归类。
推移概率行列有时也被称作马尔可夫行列。称马尔可夫过程的试验行列的观测结果为马尔可夫链(Markov chain)。 当经过相当的时间后马尔可夫链会趋向某种平衡状态。对任意的状态 i, 如果 j 是非回归状态,则 Pij(n)&0。相反,当 i 为非回归、j 为回归时,停留在状态 i 上着的概率是0。如果 i,j 属于同样的非周期性回归类的话,Pij(n)&Pj&0。
定理:若 P 是有限马尔可夫行列的话,P 的特性值 1 的重复度等于 P 决定的回归类的数目。(证明太长,省略)。
跟随着推移概率行列的有向图表的最大强联结成分(与之对应的状态的集合)被称为Ergodic部分(历遍部分),此外的强联结成分被称为消散部分。因为无论从怎样的初期状态概率 x(0)开始,经过时间 n 后 x(n) = P(n)x(0),所以属于消散部分的状态概率几乎接近于0。关于EllGoth部分,连同与各联结成分对应状态的类、像独立的最简的马尔可夫链一样行动,其中,各类中的状态概率(即从过去开始的平均值)的值和初期状态概率无关,换言之,是近似于与对应 P 的最简成分的固有矢量成比例的东西。在类之间概率的分配依存于初期状态的概率。
离散时间型马尔可夫链的不变分布是属于极限分布,从那个分布开始已经不是在分布意义上的随时间的变化了。状态的概率分布在时间变化时也不会变化时被称为固定分布。PageRank 用马尔可夫过程来说就是,PageRank就是以一定时间内用户随机地沿着(网页)链接前进时对各个页面访问的固定分布。
假想模型和现实世界的不同
那么,让我们将概率过程(即图表原理)的考虑方法和实际的网页链接构造合起来看一看。
对于刚才举例的假想网页群来说,只要相互顺着链接前进则在彼此页面间必定有相互链接的关系。即,有向图表是强联结的行列既是回归又是最简。像上面举的很多的概率过程的教科书一样,许多证明都是把回归和最简作为前提来证明的,如果是最简的话,各种各样的性质就变得容易说了。
但是现实的网页并不是强联结。也就是说邻接行列不是最简的。具体来说,顺着链接前进的话,有时会走到完全没有向外链接的网页。通常这样的情况,只有利用 web 浏览器的「返回」功能了。如果人们只是浏览而已的话,一切就到此结束了,然而 PageRank 的计算却不能到此结束。因为PageRank 一旦被引入以后是不能返回的。Pagerank 称这种页面为为「dangling page」。同样道理,只有向外的链接而没有反向链接的页面也是存在的。但 Pagerank 并不考虑这样的页面,因为没有流入的 PageRank 而只流出的 PageRank,从对称性来考虑的话必定是很奇怪的。
同时,有时候也有链接只在一个集合内部旋转而不向外界链接的现象。这是非周期性的回归类多重存在时可能出现的问题。(请读者考虑一下陷入上图中一个 R 中而不能移动到别的 R 和 T 的情况)。 Pagerank 称之为「rank sink」。在现实中的页面,无论怎样顺着链接前进,仅仅顺着链接是绝对不能进入的页面群总归存在,也就是说,这些页面群是从互相没有关联的多数的同值类(回归类)形成的。
总之,由现实的 Web 页组成的推移概率行列大部分都不是最简的。当不是最简时,最大特性值(即1)是重复的,并且不能避免优固有矢量多数存在的问题。换句话说,PageRank 并不是从一个意义上来决定的。
在此,Pagerank 为了解决这样的问题,考虑了一种「用户虽然在许多场合都顺着当前页面中的链接前进,但时常会跳跃到完全无关的页面里」,这样的浏览模型。再者,将「时常」固定为 15% 来计算。用户在 85% 的情况下沿着链接前进,但在 15% 的情况下会突然跳跃到无关的页面中去。(注:Pagerank 的原始手法是各自87%(=1/1.15 )和13%(=0.15/1.15)。)
将此用算式来表示的话得到以下公式。
M’= c*M +(1-c)*[1/N]
其中,[1/N]是所有要素为 1/N 的 N次正方行列,c =0.85(=1-0.15)。M’当然也同样是推移概率行列了。也就是说,根据 Pagerank 的变形,原先求行列 M 的特性值问题变成了求行列 M’的优固有矢量特性值问题。M 是固定无记忆信息源(i.i.d.)时,M’被称为「混合信息源」,这也就是固定但非ellGoth信息源的典型例子。
如果从数学角度看,「把非最简的推移行列最简化」操作的另外一种说法就是「把不是强联结的图表变成强联结」的变换操作。所谓对全部的要素都考虑0.15的迁移概率,就是意味着将原本非最简的推移概率行列转换为最简并回归的(当然非负的情况也存在)推移概率行列。针对原本的推移概率行列,进行这样的变换操作的话,就能从一个意义上定义 PageRank、也就是说能保证最大特性值的重复度为1。如果考虑了这样的变换操作的话,因为推移概率行列的回归类的数目变成 1 的同时也最简化,根据前面的定理,优固有矢量(即 PageRank)就被从一个意义上定义了。
数值计算上的问题点(其1)
在此,只要大概明白 PageRank 的概念就可以了,不需要很深的陷入数值计算上的技术的问题中(其实,笔者自己即使有自信也说不清楚)。但是,因为特性值分析和联立一次方程式分析一样,是利用在各种的统计分析中重要的数值计算手法的一中,所以这里我们简单的触及一些分析方法。
主记忆领域的问题是在数值计算上的问题之一。
假设 N 是 104 的 order。通常,数值计算程序内部行列和矢量是用双精度记录的,N 次正方行列 A 的记忆领域为 sizeof(double)* N * N =8 *104 * 104=800MB。 800MB 的主记忆领域不是那种经常会拥有的东西, 虽然这么说也非那种不可能的数字。但是,N 如果变成 105 或106 的话,各自就变成80GB,8TB。这样的话不用说内存就连硬盘也已经很困难了。 Google 从处理着10亿以上的页面(2001年时)以来,就知道这种规矩的做法已经完全不适用了。
不过,A 只是稀疏(sparse)行列。因为即使有一部分的页面拼命地进行链接,但是向整个Web展开链接的页面是没有的,即使有也是极为稀少的。平均一下,每一张页面有10-20个左右的链接(根据 IBM Almaden 研究所’‘ 的统计,平均在16.1个左右)。因此,我们可以采用恰当的压缩方法来压缩 A 。 N 即使是 106 时,如果平均链接数是10,最终的记忆领域只要 80MB,从规模上来说可以收纳到合理的数字里。
稀疏行列的容纳方式当今已经被充分地研究(有限要素法的解法等),在恰当的数值计算的专业书中就可以学到。虽然这么说,因为相当地难解还是需要很复杂的手法。但想指出的是如果可以很好的解决的话,并列化的高速计算(也许)就变得可能了。因为比起怎样排列并容纳非零要素来说,计算性能和并列性能对其的影响会更大。
数值计算上的问题点(其2)
另一个是收敛问题。
固定方程式
xi=&SAijxi
是 N 元的联立一次方程式,一般地不能得到分析解,所以只能解其数值。刚才举的例子中为了求特性值和固有矢量,使用了 Octave 的 eig()函数, 不过,这个在问题小的时候不能适用。说起来,并不需要计算全部的特性值/固有矢量。
求最大特性值和属于它的固有矢量(优固有矢量)的数值计算手法中,一般使用「幂乘法」(也叫反复法)。这是指,取适当初期矢量 x0 ,当 x(n+1) = A y(n) (其中 y(n) = x(n) / c(n) )中的 n && 时,x 向拥有最大特性值的固有矢量收敛的同时 c 向此最大特性值收敛的利用线形代数性质的计算方法(证明请参照线形代数的教科书)。幂乘法(反复法)的特长与逐次反复计算的近似法比,能够改善解矢量的问题。它的优点是,因为只要反复对行列和矢量进行适当次数的乘法运算,所以只要通过程序就能够简单地解决,并且还可以进行由于受到内存和硬盘的限制通过直接法不能解决的大规模分析。这是许多的实用算法的出发点。
在这里,请注意从线形代数的简单定理(Peron-Frobenius定理)得到推移概率行列的绝对价值的最大特性值是1。如果采用了这个,就会使得反复法的 PageRank 的计算变得更容易。即,因为最大特性值是既知的,比起求满足 Ax=x 的矢量 x来说 ,变成更加简单的问题了。这虽然是很细小的地方但是很重要。首先,可以去掉比较花费成本的除法计算 (y(n)=x(n)/c(n))不用完成。如果是反复法的话,不能得到很高的精确度,并且如果搞错了加速方法的话,计算出的不是是最大特性值而是第二大特性值和属于它的固有矢量(虽然这种情况很少,但是说不定就是从根本上错误的值)。但如果知道了最大特性值,就可以进行核对了。在 Pagerank 的第一篇论文中他们似乎没有注意到这个事情,但在 Haveliwala 的第二论文中增加了关于此的修正。
反复的次数取决于想要求的精度。也就是说,想要求的精度越高,反复的次数就越多。可是,幂乘法(反复法)的误差的收敛比与系数行列的谱段特性(特性值的绝对值分布)有很强的依存关系。具体地说,绝对值最大的特性值用&1表示,第二位用 &2 表示,优越率(收敛率 probability of dominance)为 d =&1/&2 话,可以知道d离1越近收敛就变得越慢。在 N 很大的情况时d当然离1很近。这是因为,绝对值最大的特性值是1,而其他所有的 N-1 个特性值的绝对值都比1小。但是,N-1个特性值之间非常的拥挤,所以&1和&2 之间几乎没有差别。因此一般来说,收敛会变慢。
所谓收敛变慢,严密地说,就是无论经过多少时间也完成不了的计算。对此,为了使收敛加快的适当的加速方法也是存在的,应用这些方法时,需要对数值计算技术有十二分的理解,因此如果不是数值计算的专家就很难引入。
5. Namazu 上的实际安装实验
为了使更简单地推测上文描述的问题,PageRank 并不是非世界所有的web页面而不能使用的考虑方法,即使是个人的利用方法也能实现。为了实现「Personalized PageRank」,针对在各种 UNIX 和 Windows 上运作的中小规模网站适用的 进行了实际安装实验。(关于Namazu可参考 。)
由于实验能简单地控制内存的使用量,并将最大特性值用1来考虑,所以将 Have liwala(1999)的想法做为基本的考虑方法。但是对 dangling pages 的处理有少许不同。固有矢量的计算内核使用了数值计算脚本 GNU Octave。所以基本的代码编写自己只用了一天就解决了。另外,从用 mknmz 编写的索引不能直接计算 PageRank,而要事前准备表示邻接关系的索引(邻接列表)。这个也有可能被编入检索者(Indexer)的主要部分。
以下表示了实际计算时间(单位:秒)。运行机器的配置为 PentiumII 400MHz x 2,内存512MB,Kondara MNU/Linux 1.2的(kernel-2.2 .17-15ksmp),Octave-2.0.16(一般状态分发物)。收敛精度(剩余差矢量的L1规范)取了到1.0e-10,也许有些过分精确了。
PageRank计算时间
============================================================
因为没用一些巨大的web页群来做测试,所以实验只停留在小规模的基础上。虽然有这个难点,但从基本上可以了解与索引所花的时间相比,在很短的时间里就可以计算 PageRank 的倾向吧。
因为 Namazu 自身中也有很多难题,所以并不寄予很大的奢望,但至少使用 105 程度(尽可能 106)规模的web页面群来实验。从趋势来看可以预想 N=106 的计算时间恐怕会发散开去,所以在 N=106 时,若是能够讨论把mknmz时间变成和comparable一样的加速方法的话,对于Personalized PageRank 来说就十分实用了。作为参考,根据Page et al.(1998),Google 对7500万的URL的实际 PageRank 计算时间约是5小时。(2001年2月现在不明)。从这个角度来说,研究更加高效的加速法的余地就十分得必要了吧。
计算实际运行时的使用内存最大也是10几MB左右。如果是Haveliwala (1999)那样的「吝啬地作战」的话,最大只有O(3N+2)左右的内存使用量就做完了,不过 N 是 104-5 程度和内存的使用量连 N2 也放不进的话,其他的也只能勉强调谐了,所以以 O(5N+&) (&是疏松行列的非零成分数字,典型的是5-20N左右) 程度来编写代码。另外 N 是103 左右时,可以确认不压缩疏松行列就在内存上使用幂乘法来计算,从速度面上来说是非常有利的。实测时速度为上述数字的6-7倍左右的。但遗憾的是,这个方法从内存的限制来看,尽可能地只使用2-3千页以内。
此次我们使用了 Octave 分发附属的「Tsurushi」,不过,正像大家知道的那样,如果把 Octave 调谐的好的话,会戏剧性地提高完成的速度。Octave-2.1.x 和 ATLAS 的组合有时候根据情况甚至会使大规模行列乘法的运算速度提高10倍以上。
实验的详细结果请参照中的文档。
Personalized PageRank 的基本性质
人们经常会利用 MHonArc、latex2html 或者 PowerPoint 这样的工具将文档变成 HTML,针对这样的人工制作的HTML链接群求 PageRank 的话,大部分页面的得分几乎都是一样的(~1/N)。如果考虑邻接行列,则大部分的成分是1,或者对角成分附近全部是1。因为这样的推移概率行列的固有矢量成为(1,1,&,1)。
或是象 sitemap.html 一样变成树状的情况下,分数会集中在sitemap.html中。就算占据全体的9成也不算新奇。
从现在起能说的是,为了计算有意义的 PageRank,要尽可能地排除机械生成的链接关系。如果把链接关系看做是推荐关系的话更加容易认同了吧。
(读者)应该没有余地去怀疑象 PageRank 那样利用超级链接来决定排列次序有效手法吧。
不过,阅读了这些论文以后笔者自身也考虑了许多问题。在这里,列举几个对 PageRank 的个人见解。虽是见解,说到底就是方法论,也许会有很多错误的地方。
关于 dangling page,不相反考虑的原因是什么?
只是因为考虑一定的变异概率时「偶然」会变成最简才不予考虑吗?还是有时看漏了什么吗?稍微有点不太明白。
改善推移概率行列的可能性
说起来,为了保证 PageRank 的单一意义的性质(一意),只要保证推移概率行列是最简(有向图表是强联结)就行了,没有必要所有的要素 aij 都是非零要素。事实上,像在web上浏览 Toyota 汽车网站后紧接着跳向色情网站,接着又继续跳到白宫网站浏览的怪异的人应该是不存在的吧。(请注意这里是指在随时间变化连续的形式)。因此,从实用的意义上来说,区别于改善多少的使用方便程度,应该留下对算法改良的余地。
考虑「逗留概率」会怎样
根据 PageRank 的考虑方法,在一定的时间后必定顺着链接前进到其他的页面,或者突然怪异的、歪曲的跳到其他页面。但是如果对照现实的web浏览模型,也要考虑一定的逗留概率。具体地说,就是推移概率行列的对角成分中只取( 1-c)/N 的话取得过小了。在原本所有变迁概率都一定的情况下,更加进一步分析会怎样?因为对于无聊的页面(浏览者)必定会想都不想就转到另外的页面,反过来对于重要的页面却会停留较长的时间。
如果考虑概率论应用的话必定会考虑其他许多问题
即使是将实现性置之度外,我们也再来试着进一步考虑这个想法。概率论中,存在着一种叫消灭概率或叫固定概率的概率。比起 PageRank 的单纯而同样考虑方法,导入这种考虑方法会得到更期望的结果,所以理所当然被大家所期待。大家都知道马尔可夫链中的分枝过程的考虑方法。这是考虑遗传基因突变时的一个模型,即,说明经过一定的时间而产生淘汰的可能性的模型。很多人认为这个考虑方法或许会被采用。那么导入带有限制的概率(禁忌概率)又会怎么样呢? 即,相当于导入通过 n 次的推移从状态 i 移动到状态 j 时,不经过状态 k 的概率。如果考虑到web浏览的性质的话,不是也能理所当然地成为假定吗?
不能作为非马尔可夫过程(或者说 m次的多重马尔可夫过程)来考虑吗
所谓马尔可夫过程,就是与过去的经历无关,只从现在的状态来确定未来的概率法则的概率过程。 马尔可夫过程只依存于1步之前的过程。这个过程和没有对过去的记忆,没有依存于过去经历的要素。 PageRank 是在单纯马尔可夫过程随时间变化而固定的状态下计算时候所求得的结果。但是,人类的理性行动必须以非马尔可夫过程来表现。复杂的过程总是以一些形式和过去有着牵连。因此,不仅仅单一地分析从哪个页面连接来,而要分析沿着怎样的路径连接而来的。这样的分析才会使其有可能成为更有用的排序系统。在能抑制住计算量爆炸的范围内,试着引入非马尔可夫过程来研究说不定也很有趣。
在考虑到和看到的许许多多中,有像实际安装那样不太难的东西,也有因为只是嘴上说说而不知道怎样实际安装的东西,不管怎样,定量地评价它的效果是极为困难的。难道真的是不能实现的东西吗?
PageRank 的技术有多少
即使只是采用评价很高的 PageRank 技术,作为基本的想法也只是使用了枯竭的数值分析的手法来实现的。但是,象我在这里说明的事情,如果从专业的研究者来看完全是理所当然的事情了。只是克服规模这一点就能建立一个专业的研究领域吧。 也可以认为专业领域的内部并没有那么深的尽头。事实上,我做事,充其量只是表示了「如果是极其小规模的问题,即使是教科书的手法也能大约地得到满足计算量的结果」。
尽管是这样,充其量只触及了概要的表面就在嘴边说「没什么嘛,原来是程度这么简单的技术呀」 的那种不懂装懂的人也是有的。在这里事先强调:这种浅薄的看法是从根本上完全错误的。
当然,PageRank 技巧的非常好的地方是「从许多优质的页面连接过来的页面是还是优质的页面」,如果明白了就会觉得是简单的想法。但更进一步说,真正绝妙的地方是,不仅仅只是想到一个主意,而是将想法用固定状态变迁的概率分布来定式化,为了实证其有效性而实际地进行安装实验,并证明其在现实领域也能很好地运作的过程。在所有的这些阶段都成功了才是真正值得被称赞的。
的确,不仅有斩新而且巧妙的想法,再加上结合教科书的手法,也有可能制造出能和 Google 匹敌(或是凌驾)的搜索引擎。也可以说实际上 Google 自己也在这么做着。但是,实际完成的人却是少得惊人。假想模型中的「肯定能够完成」的东西和实际运作的东西之间有着天差地别。在实际问题上,处理大规模疏松行列本身,通过一般的手法也是相当的困难,需要高度的专业技术。应该铭记在头脑中总觉得能够理解的事和实现中能够做的事之间绝对会有不能填埋的差距。不可过分轻率地考虑。
以下列举了除了在「前言」中介绍的基本论文以外的关联论文。(译者去掉了许多无用的连接)
S. Brin, L. Page, ‘The Anatomy of a Large-Scale Hypertextual Web Search Engine’,
山名早人,近藤秀和,「解说:搜索引擎Google」 , 信息处理42卷8号(2001年8月), pp.775-780 ()
原田昌纪,「路标:WWW搜索引擎的建立方法」 , 信息处理41卷11号(2000年11月), pp.
原田昌纪,「搜索引擎检索结果的排序」,bit 2000年8月号(Vol.32), pp.8-14
美国 Clever Project,「聪明地使用超级链接」 ,日经科学 1999年9月号, pp.28-35
Dell Zhang, Yisheng Dong, ‘An Efficient Algorithm to Rank Web Resources’,
Jon M. Kleinberg, ‘Authoritative sources in a hyperlinked environment’, Proceedings of the 9th ACM-SIAM Symposium on Discrete Algorithms, 1998.
IBM Almaden Research Center, ‘CLEVER Searching’,
以下列举数学关联的参考书籍。
S.卡琳 著,佐藤健一,佐藤由身子译,『概率过程讲义』(数理分析与周边3),1974年,产业图书
岩堀信子著,『图表和概率过程』 (与数理分析与周边4),1974年,产业图书
伊藤升 他著,『经济系、工学系的行列及应用』, 1987年,纪伊国屋书店, ISBN4-314-00477-0
L.V.Atokinson, P.J.哈里, J.D.赫德森 共著,神谷纪生,大野信忠,佐胁丰,北荣辅 合译,『数值计算及其应用- FORTRAN77-』, 1993年,Science公司,ISBN4-
宫泽政清著,『概率和概率过程』(现代数学研究小组17),1993年,近代科学社, ISBN4-
伊理正夫著,『线形代数II』(岩波讲座应用数学11) ,1994年,岩波书店, ISBN4-00-
韩太舜,小林欣吾著,『信息和符号化数理』(岩波讲座应用数学13) ,1994年,岩波书店, ISBN4-00-010523-X
小国力著,『MATLAB及其实际利用-现代应用数学和CG -』( Information & Computing=86),1995年,Science公司, ISBN4-
长谷川里美,长谷川秀彦,藤野清次译,『反复法 Templates』(应用数值计算Library),1996年,朝仓书店, ISBN4-254-11401-X
小谷真一著,『测每次和概率2』(岩波讲座现代数学基础10 ),1997年,岩波书店, ISBN4-00-
藤野清次著,『数值计算之基础-以数值解法做为中心』(Library新信息工程之基础9),1998年,Science公司,ISBN4-
与有关 Google 的在线新闻报道(日语新闻)已经分离到。()
其他,特别列出几个认为有关联的页面。
(LinuxGazette)
(JCOT报告)
(InternetWatch)
(InternetWatch)
(HotWired Japan)
(HotWired Japan)
(yomoyomo 氏族)
(the cluetrain weblog)
(Web Workshop)
感谢转载!其他许多的个人站点和BBS都介绍了此文。
ZDNet China中文
。读不了…
ZDNet China 还是中文。读不懂…
中村正三郎「BRAVO! Linux」Linux Japan 2001年5月号
InternetWatch
InternetWatch
Google World & Japanese &计算机&因特网& WWW &主页检索 目录
Lycos 目录
Yahoo! JAPAN 商务经济&企业&因特网服务&企业间交易(BtoB)&检索,导航& Google 目录
英语(美式英语)中是不可能把 Google 念成「goguru」的。 和没有人拉面的 noodle 发音或标记为「nodoru」一样,如果硬要用片假名来表示的话应该写成「グーグル」。
不过,有oo 这个拼写的英文单词有以下这些。
book, bool, cook, cool, food, good, hook, look, loop, loose, mood, moon, noon, pool, roof, soon, tool, wood, zoo, …
这些都是简单的一般的英文单词,但不论取哪个都有「u:」这个发音。至少,对许多的典型的日本人来说听起来是这样的吧。英语(美式英语),oo 的拼写基本读成「u」。当然,goo就读成「gu:」。 广末凉子不也在中古车信息杂志的电视广告中说「如果要说车,gu―」吗?另外,游泳时使用游泳眼镜的拼写是 goggle。
当然,如果 Google 不是英语(美式英语)话那就另当别论了。但是,Google 名字的由来是从表示10的100次方的英文单词「googol」而来的,也许还是英语发音比较适合(google)吧。不用说,googol 的发音也是「guguru」吧。
另外,创业者之一是 Sergey Brin,从他的名字就能明白他是俄罗斯出身,也有可能是他的英语发音带有自己的方言。如果扯到那里的话,已经是牵强附会了。而且,我也不太清楚Google 用俄罗斯的地方口音怎么发音。如果有识之士在的话,请一定告诉我。
补充(2001/4): 给Google的支持中心发了「是goguru,还是guguru?」的询问信的一位读者,热情地给我转发了这封邮件。对方说虽然 Google 自己本身的发音是「guguru」,不过,你以你自己喜欢的叫法称呼也决不会介意的哦。
Date: Wed,31 Jan :01-0800
From:&GoogleTech&&googletech@&
Subject: RE:{Google#034-917 } pronunciation
To:转送邮件者(Thanks)!
We go by:&GU Gul&
But you are welcome to say whichever you prefer!
The Google Team
补充2():请看Google的页面 。
Hajime BABA / 馬場 肇 &baba@kusastro.kyoto-u.ac.jp&Copyright (C)
Hajime BABA. All rights reserved. $Id: pagerank.html,v 1.113
00:38:48 baba Exp $&翻译: / 袁 黄琳 &krenyAT&创作于:2003/12 &&最后更新: 日 3:53
— 岚焕 @ 4:25 pm
&&& A、对象
&&& 1、个体:个人和组织。
&&& 2、内容:新闻信息;观点评论;资料数据。
&&& B、行为
&&& 1、内容阅读浏览
&&& 2、个体联络:IM;EMAIL;SNS;博客或者论坛好友;等等。
&&& 3、内容收藏:地址;文章;等等。
&&& 4、存储调用:网络硬盘;相册;共享文件夹;
&&& 5、评价:专栏;分级;分类;数据挖掘;等等。
&&& 6、反馈:跟贴;投诉;检举;参加调查;等等。
&&& 7、写作发表;转载;等等。
&&& 8、游戏
&&& 9、其他在线生活:学习;工作;情感和生命记录;等等。
&&& C、逻辑
&&& 开放:形成统一的标准。
&&& 自由:个人和内容的自由流动。如。
&&& 分享:不采取任何封锁行为。如
&&& 快速:访问速度快。
&&& 直接:减少到达用户目标的环节。如。
&&& 简单:结构简单易上手。如。&&&
&&& 有效:提供最合适的目标。如。
&&& 及时:最鲜活的内容。如。
&&& 深度:精确到达用户目标。如。
&&& 原创:主动发表个人创作。如。
&&& 独家:独家发表。如等精华网站。
&&& 选择:可以拒绝或者选择单项服务。如。
&&& QQ:3436188
&&& (如没有QQ只有MSN的朋友,请加:) &&& 更多随笔请到个人博客:
— 岚焕 @ 11:43 am
&&&&&& 网站越来越多,因为大家都想利用网站帮自己赚钱。不过,想让网站帮自己赚钱并不是太容易的事情,几年来,我研究了许多沉默地赚钱的网站,同时也研究了许多花费了很多精力但是让然没有赚钱的网站。如果你的网站现在还没有帮你赚钱,如果你也想做个赚钱的网站,请阅读这一系列文章:
原因之一:赢利模式不够清晰!
&&& 很多朋友在做网站之前,想的都非常非常的单纯,因为他们有这样一个观念:先把网站做大,然后再考虑赢利。提到这个观念,可能许多资深网络人士都还是非常认同,因为可以拿出许多这些年来的成功案例来证明这个观念,比如SOHU、新浪、网易、等几大门户网站,它们当初做的时候没有想过怎么赚钱,只想如何把网站做大,后来真的都赚大钱了。不过王通认为,如果你还用这个观念来搞网站的话,你成功的几率将是非常非常小的。你可能会问为什么?&
&&& 大家都知道,许多道理都不是真理,它只适应于某一个时间阶段,在这个时间段内它是一个非常正确的道理,但是过了这个时间段候,它将会成为一种错误的道理。先把网站做大,然后再考虑赢利。就是这样一个道理。因为:?&&&&互联网已经不是目前经济发展的最大趋势:把握大的趋势赚大钱,把握小的趋势赚小钱。互联网在上世纪末的时候,它是十年内最大的发展趋势。对于当初的网站来说,它们把握了趋势,只要不死,以后赚钱是肯定的,所以它们没精力去考虑如何赚钱,要考虑的只是如何先把网站做大,如何吸引更多人的目光。现在而言,互联网依然是一个非常大的发展趋势,但是它已经慢慢成熟,做的人越来越多,竞争越来越激烈,已经不是最大的发展趋势了。
?&&&&当初可以靠风投养活自己,现在只能靠自己养活自己:靠一纸计划就可以融到很多钱,而且风投占的股份非常少。但是现在已经不行了。风投不会因为你单纯的一个梦想就给你投钱让你试着去实现。所以你搞网站,一开始只能靠自己来养活自己。想花风险投资的钱做自己的事情,也只能你自己的网站开始赚小钱的时候风险投资才可能给你投资。?&&&&早期的互联网竞争不激烈,现在的互联网行业竞争越来越激烈。刚刚进入中国的时候,做的越早,就越容易以较低的成本获得最大的市场份额。也就是大家说的,先入为主。那时候,因为没有竞争,所以不管做什么网站都非常受欢迎,流量很容易起来!(每当想起三大门户最初的样子的时候,许多网友都会发出这样的感叹:现在看来,当初的三大门户是什么破网站啊,以我现在的能力,一天就可以做出一个比他们都优秀的网站。可惜,当初你没有这个能力,现在许多人也都有了这种能力,而现在的三大门户已经不是当初那样简陋了,你已经无法超越。)
&&& 这个年代,变化太快,&先把网站做大,然后再考虑赢利&这类话已经不适合现在的节拍。&&& 你的网站如果现在还没有帮你赚钱,很有可能最大的原因就是你还受着这个落后的观念不放。你想让自己你的网站帮你赚钱,首先在做网站之前,就必须把以下问题搞清楚:1.&&&&你做出来的网站各个阶段的赢利模式是什么?2.&&&&这些赢利模式是否合理?3.&&&&网站具备那些条件就可以开始实现赢利?4.&&&&这些基础条件分别是什么?5.&&&&以你现在的能力和资源是否已经具备了?&
&&& 如何策划自己的赢利模式?这些模式是否适合你?如果你的网站存在着这种问题,你可以与我们联系&(请将#换成@)。
王通 日 首发:
— 岚焕 @ 12:58 pm
作者:& MSN:
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明
题记:很多朋友问我关于赚钱的事情,都很好奇,我这钱是怎么赚来的,今天我就说一说吧。一般,很少有人会公开发家史,因为,中国这段时期很特殊,各种因素导致90%的发家史是犯罪史,我的稍微例外,算比较干净的,不过我在初期也被工商罚过十多万。呵呵,先从第一桶金说起吧
第一桶金:泡沫期的美金
搞个流水账吧:
1、97年,学会了上网,获得劳动部Internet操作员资格证书,考的是netscape浏览器的使用,E-mail的收发,当时全国上网人数不到60万2、98年3月,加入中国第一家网络公司&&马云的中国黄页,做业务员,域名注册2000元:) 做2个页面1万,呵呵,主要客户为外贸公司,因为当时中国的上网企业很少,所以上网后的效果比较显著3、98年12月,调入宁波市计划经济委员会,负责从网上找财经信息4、99年3月,参与宁波信息网的建设5、99年5月,建立了第一个个人网站:女人的奥秘,以性爱内容为主,日访问量超过1000IP,8000pageviews,主要宣传方式:垃圾邮件,效果极其显著,那个时候广告是按照cpm计费,就是每1000次曝光多少钱,一般千次曝光1美元&&2美元不等,每个页面可以放置很多广告条,当时的美国广告公司非常守信,女人的奥秘帮我赚了1万多美金的广告费,主要来自cj. 还有锦瑞代理。6、99年8月,建立了第二个个人网站:中文网络谁最酷 (就是网址导航),每周给《宁波晚报》撰稿,每周推荐2个网站,顺便为自己的网站做做广告,日IP500左右。赚了2000美金左右。 7、99年年底开始,担任chinabyte兼职编辑,每月500元左右收入,8、2000年年初,建立了一个证券网站:必赢证券
,主要宣传方式:论坛、cn99的邮件列表、广告链,日访问量达到5000IP,被当时的fm365评为中国3大证券网站之一。 这是太极链的统计,/viewmain.asp?name=biying88 这个帐号是2000年申请的,后来,必赢证券改为至诚证券zhicheng.cc 。这个网站大概赚了1000美金,3000港币,还有3000人民币,人民币主要来自于8848,TOM、易趣。后来,网站域名更换为 ,这个 就是从现在265 CEO 蔡文胜 那里买来,花了我1万人民币。那时候,文胜还没有做265,不过,我很感谢文胜,他给我不少启发,也给了我不少刺激。9、2000年年中,建立了站长之家zhanzhang.net 网站,提供可以完全订制的,支持1级下线的免费新闻代码,提供邮件列表等站长服务,有8万个个人网站采用,日pagevies达到20万,站长之家的访问量很大,却没有给我带来多少直接的广告收入,因为,纳斯达克市场已经跌得不成样子了。这么大访问量,也只赚了2000美金左右。比现在的个人网站都还要难赚钱,网络的最低迷期,站长之家遭受黑客攻击,导致数据库丢失,由于网络业太低迷,我也没有去挽救了。一个alexa排名千位左右的大站,就这样消亡了。
1999年和2000年通过几个个人网站大概赚了15万左右,这就是我的第一桶金。&
第二桶金:将广告卖给自己
2001年,站长之家的日访问量达到20万,但是月收入只有一两千块,我想,这么大的流量,却没有广告可以做,这样下去可不行,新网的服务器每月要1千块,出路在哪里?
广告没人要,就卖给自己!这个大的流量,媒体影响力已经相当于一个小电视台了,我可以找个好卖的东西,放在上面卖,于是我想到了证券咨询,我本来就在做证券网站,提供的是免费的证券资讯,现在我可以增加个付费栏目,经过2个月的尝试,我发现这种模式可行,日我从宁波市信息中心辞职了,开始了创业时代。
站长之家提供了源源不断的访问量,加上以前积累的cn99的邮件列表的几万忠诚的免费客户,至诚证券网的访问量马上就起来了,02年日访问量达到1万ip,6万pageviews ,由于当时基本上没有什么市场竞争,加上股民的信心还是有点,合作的咨询机构提供的产品也不错,01年到04年,通过这个网站赚了几百万。
将广告卖给自己,这就是第二桶金!
期间,得到了csdn曾登高兄弟的技术帮助,至诚证券网拥有了一套稳定的会员管理系统,防泄密系统,虽然做网站多年,但我一直只会用frongpage ,技术上一直依靠业内朋友帮忙。
第三桶金 抓住百年一遇的房地产行情
从2001年开始,中国股市一步步走入深渊,上证指数从2001年6月的 2200点跌到现在的1000点,如果扣除股指失真部分,其实已经只有800点了,股民的信心一步步丧失,而同时,证券咨询市场的竞争越来越激烈,证券业务的生意越来越难做。经常会出现连续几个月的亏损。
与此相反的是,房地产市场市场起来了。
大学毕业的时候,我有2个选择,第一、向老妈借款2000,开个房地产中介公司;第二、加入马云的中国黄页公司,我选择了后者,但是我对房地产市场非常关注,大学期间写了几十页的关于房地产项目的策划,梦想建立自己的&安家集团&,在写毕业留言册的时候多处署名:安家集团董事长 ,呵呵^_^
宁波市的房地产是2001年启动的,到2002年年底,宁波市的平均房价已经从2000元上涨到了3000元,3000元,对当时来说是高的不可思议了,我自己利用在网络泡沫中赚的美金,在2001年的时候就买了房子了,谁料到,不到2年时间,竟然会上涨50%,每个人都后悔自己没有买房,面对3000元的天价不知所措。
投资股市的资金出现了亏损,我开始认真分析房地产市场,经过几天综合分析,得出结论:房地产至少还会再涨1年,于是,我将所有的资产转变为了房产。
房地产市场的走势比我预想的还要夸张,到2004年,所有前期买入的房子全部涨到6000元以上。房地产市场已经严重影响宏观经济,中央政府的态度开始强硬,于是我决定,开始抛售,04年通过&艰苦努力&将大多数房子成功卖出。
百年一遇的房地产行情给我了第三桶金。
尽管我是房地产行情的既得利益者,但是,我认为:这波房地产行情导致全国老百姓的平均生活水平倒退5年,我经常在新浪论坛里发贴,提议中央每年将房地产年涨幅最大的20个城市的书记、市长撤职!因为他们的罪孽实在太深重。
房地产行情导致了资源的不合理流动,这是建国以来最大的一次资源的不合理流动,严重影响了老百姓的生活水平,导致贫富分化进一步加剧,我大致估算,到2010年以后,中国的老百姓的真实生活水平才能回到2001年的状态。(这是提外话了)
期间,我投资过几个小项目,大多数是网上项目,也都赚钱了,太杂乱,不详细说了
第五桶金 目标1年实现1亿市值,3年实现5亿市值
自04年年初开始,我就在寻找好的网络项目,先是看中邮件列表,筹备了好几个月,知名网络营销专家,先生已经答应出任公司的CEO,折腾好长时间,不过后来还是放弃了。
04年5月,发现了hao123的天文访问量,后来又发现265流量上的很快,于是花了10万买了86.net ,准备也做个网址站出来,又折腾了半年,烧了不少钱,网址站还是没有什么大起色,访问量维持在1万ip,离目标相去太远。
房子已经逐步卖掉,现金越来越多,股市越来越差,好的投资渠道找不到,差点就去西部挖煤了。
突然有一天,我发现了一个很好的流量统计系统,是百度的caoz开发的,性能卓越,我一直想做流量统计,一直找不到好的系统,非常惊喜!当天我就决定买曹政的系统,投资流量统计,烧多少钱都愿意!因为我要了解需求!因为我的商业判断要真实地数据支撑!
于是, 2004年12月诞生了,到现在已经花了我70多万,但是我觉得很值,因为1tong可以统计到1700万网名他每天在网上干什么,相信,凭着我的眼光,肯定能够在这些宝贵的原始数据中发现机会。
目前&一统统计&为全国6万多个网站提供免费流量统计,每天统计流量1.2亿,相信,对互联网了解的人都知道他的价值。
机会已经找到,完整的计划已经写在纸上,同时也花百万买到了梦寐以求的域名,我想第五桶的实现可能比较大,当然,也有可能我输的变为穷光蛋,穷光蛋的日子我也不是没有过过,没有什么好怕的!
网络江湖 八年心得
97年进入江湖,匆匆,已逝八度春秋!目睹IE逐步占领市场,目睹新浪诞生,目睹TOM股市狂潮,目睹QQ全面战胜icq,目睹三大门户流血上市,目睹网游疯狂,目睹互联网业的盛衰成败,八年!有几点心得:
1、这是一场马拉松:执着是胜利的前提
执着的太少,倒下的太多。我99年开始做网址站,而且还有每周上报纸宣传的机会,可是,在网络的低迷期,我还是放弃了,只在站长之家上放了一个导航页。放弃了就是没有了。同样,站长之家在03年每天访问量20万,但是在经受黑客攻击后我没有尽全力挽救,还是倒下了,这是我心中永远的疼!做事太不认真,太缺乏坚持的品质。
2、勤奋是核心竞争力& 要勤奋,要做!
3、最了解需求的是草根,平时要多看看个人网站,看看哪类网站近几个月的访问量增长最快
4、跟风没错,要跟成功则需要智慧5、成败的关键在于:需求、渠道、速度
近期,如果有时间,我会撰文详细阐述,有兴趣的朋友可以关注我的blog &&
对现在的站长来说,最梦幻的机会是:
1、最好有个有钱的老板给你投资500万,最好他只要20%股份,那就太棒了,不过这可能性很小
2、经过努力拉到风险投资了,比如IDG给你投资了,虽然第一期才10美金,但是也不错啦,不过,各类风险投资商在网络业1年也只投资几十家,无数的海龟,无数的原知名企业高管都在拉投资,掉到俺们头上的概率很小阿
3、通过各方游说,终于借到10万块钱了,也不错,只不过这年头,钱也难借,身边的兄弟都是穷穷的,借10万也难哪,即使借到了,借来的钱总是要还的,万一项目搞不好,倒是头疼,
4、最好是:有个家伙,在做大站,访问量已经有每天上百万ip了,而且还在不断增加,这个家伙给我们的个人网站提供每天5万&&10万的新增访问量,当然,我们要分钱给他了,我们顺便也帮他的大站策划策划,策划是我们擅长的,帮他做强,顺便拿点这个大站的股份,2年后股份值个500万,哈哈,太棒了!有这种好事吗?
有这种好事吗?很少,极少,但是&&有还是有的,我提供给大家这样的机会,名额5个。
我叫,我的互联网经验和资源上面已经说起过了,我们现在有个20人的技术团队,我们有资金,有技术,有经验,有数据让我把握需求,有渠道,甚至,我还有将流量转变为现金的下属公司,有花了将近百万买来的2位数域名,我们成功地概率真的很大。现在需要5位个人网站站长加盟,主要的工作是:
1、为公司做个个人网站,呵呵,什么意思呢?比如,你就是负责一个下载站,就你一个人负责,公司提供服务器、美工、技术、超大流量、当然还有可以让你吃饱穿暖的基本工资,你只要做内容,做出最好的内容,并且放更多的广告,赚来钱了你拿20%提成。
2、协助做我们那个大站的策划工作,策划这种事情都是大家擅长的,好处是,得到这个大站的股份,具体多少看你表现了,看你贡献了,如果你表现得很强,我自然会用更多的股份留住你,如果表现不好,肯定要赶跑你。
要求:1、有个日ip2000以上的网站2、会做事,会踏踏实实做事,工作效率高,不偷懒3、对网络狂熟悉,鬼点子多,擅长投机取巧4、擅长管社区,当过版主的优先对于我,大家可以分2点把握
能力方面:请相信一个成功的老站长,赚钱毕竟不容易,要运气,也要眼光,要有执行能力资源方面:需要的,基本上都有了人品方面:请看
有兴趣请发你的详细资料到 最好不要在QQ上和我沟通,我的qq每天几十个人加已经烦死了,兄弟们体谅体谅吧
mail内容请包括:1、我给你上述条件了,做什么网站随便你挑,那么你选择做什么,怎么做?一定要说清楚2、对于互联网,值得说说的东西随便说2句,特别是你觉得比较深刻的见解。3、不要忘记自我介绍哦4、请记住&竞争力&&说服力&2个词,请在mail中体现!
我的成功具有一定的不可复制性,你现在要想凭一个人赚这么多钱,很难!
不过,放在你眼前的机会太好了!不可放过!
于上海浦东世外桃源
                                   日1:06&
简介:相信真诚就是一切!77年出生,农家小孩,6年,通过互联网积累千万资产,有资金 有思路,但缺乏执行管理能力,希望能够得到您的指点和帮助,我们急需经验丰富的执行副总裁、人力资源经理、各类网络技术高手、 优秀的个人网站站长、娱乐圈运作精英,通过共同努力,打造一个有巨大影响力的新媒体,以影响力和资金来促进社会资源的更合理流动,来促进平等。的QQ:2850651&& MSN:& 网站:
[本日志由 庞升东 于
01:48 AM 编辑]
(7):/trackback.asp?tbID=17/trackback.asp?tbID=17&CP=GBK
— 岚焕 @ 12:20 am
首发于在虚拟的天堂中沉沦&&&&&&&&&&&&& 作者:赵福军
从去年开始公安部在全国范围内进行了一场&打击淫秽色情网站&专项整顿活动,关闭和查封一大批以&99情色论坛&为代表的色情淫秽网站,宣判了一大批涉嫌传播淫秽物品罪的当事人。
然而哪里有暴利那里就会有敢冒天下之大不帏人以及其行为。即使是在各国严格控制甚至以法律禁止网络色情的现今,成人网站年收入还是高达120亿美元。远远高于作为朝阳产业的网络游戏。这不就连作为非赢利的国际互联网络名字与编号分配机构ICANN也想在网络色情的盛宴中分得一杯羹。
据搜狐IT报道,互联网主要监管组织ICANN周三批准建立虚拟红灯区,这为色情网站立.xxx后缀的网站铺平了道路。新的色情后缀.xxx将是ICANN正在考虑的十种后缀域名之一。
.xxx为后缀域名注册服务的推出会对虚拟与现实世界产生什么样的影响呢?到底是会导致网络色情的进一步泛滥还是进一步走向规范化甚至合法化呢?是否会引发新一轮世界范围内的域名抢注狂潮?
色情是自古以来最古老的职业之一,网络是新时代科技的领军人物,两者的结合堪称完美:集全球性、匿名性、交互性、非中心化为一体的网络虚拟空间,至少可以让传统的色情业再疯狂上百倍、泛滥上千倍,也就意味着可能会地人类尤其是未成年人造成百上千倍的危害。在《&虚拟红灯区&?打自己的嘴巴?》(地址:)一文中笔者已经论述了.xxx可能引发&虚拟红灯区&所造成的危害性,这里暂不罗嗦。
然而由于域名的具体注册与最后网站的具体经营都是要经历一定的程序审批和执法审查,这必然使得域名注册者有所敬畏。
首先,从法律角度而言,不会允许网络色情泛滥,不会允许域名抢注。法律是一种民族文化的反映,由于各国传统的不同,必然导致各国的国内法之间存在或多或少的冲突与不一致。这一点具体在网络色情上就是有些国家法律给予禁止和打击,如我国;而有些国家的法律却给予一定程度上的允许与许可,如美国。这就会导致在我国以及其它大部分禁止网络色情传播的国家不会发生域名抢注狂潮,否则花费大量美刀抢注来的大量域名卖给谁呢?即使抢注了也不会受到法律的保护。
其次,从价格上来说,昂贵的.xxx域名也会在一定程度上抑制抢注者的欲望。据报道ICANN将开始与英国商人斯图尔特-劳里负责的ICM注册机构谈判,解决新网址的技术和价格问题。ICM计划对&.xxx&域名每年收费60美元,而这是&.com&域名价格的十倍。由于后缀域名仅仅是一种粗略的范围划分与访问路径,因此不同后缀域名之间在网站内容上完全可以实现相同的功效。因此对于网络色情合法的国家,在没有相关强制性规定经营成人色情网站必须使用.xxx为后缀的域名之前,理性的经营者都会选择价格相对较低的.com或.net而非.xxx;对于禁止网络色情的国家,注册一个.xxx域名的网站不是明着找查封吗?躲和规避还来不及呢!
最后,域名注册审查虽然通常都为形式审查,但是相关的网站经营范围的核定与审查、备案却是一种实质审查,这也会在一定的程度上少.xxx域名抢注行为的发生。例如,我国的法律、法规就将网站具体的区分为经营性与非经营性两类,并规定对经营性互联网信息服务实行许可制度;对非经营性互联网信息服务实行备案制度。未取得许可或者未履行备案手续的,不得从事互联网信息服务。
综上,笔者认为.xxx的推出的确会引起网络色情的进一步泛滥,但却不会至少是在现阶段不会引发新一轮世界性大规模的域名抢注狂潮,同时.xxx域名注册服务的推出至少告诉监管部门一个信号,从注册根源上把关,实行实质审查也是杜绝网络色情泛滥的有利途径。
QQ:;E-mail:zhaofujun_
权利管理信息:未经过作者许可禁止任何媒体转载,违者必究!
— 岚焕 @ 1:43 am
— 岚焕 @ 5:45 pm
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明
关键词:如何利用网络赚钱,怎样利用网络赚钱,中文网络赚钱,网络赚钱方法,最赚钱的网络游戏,网络赚钱论坛,网络游戏赚钱,利用网络游戏赚钱,cashfiesta网络赚钱,网络广告赚钱,网络免费赚钱,网络赚钱的方法,利用网络赚钱的方法,网络赚钱工具,最新网络赚钱方法,怎么利用网络赚钱,利用网络赚钱,智慧网络赚钱,中国网络赚钱网,如何用网络赚钱,网络赚钱看过来,怎样靠网络赚钱,网络赚钱骗局,免费注册的网络赚钱
      
  每一个&网络草根&,至少有10种方法可以达到月赚3000.是的,月赚3000并没有什么,我现在也基本用不着这些方法,但对于某些有志之士来说,可以使他更自由地去做自己想做的事情。
  本文所述方法,都是tuenhai经过试验或论证的。写这篇文章,也是解开某些人心中可能存在的疑惑。tuenhai在平时会自然地说起:&我的任务是找到比我强的人,然后我的任务就完成了&&我不用给自己留退路&&&,看上去好像tuenhai非常超脱,其实不然。任何人都离不开&物质&,离开&物质&,何谈精神的超脱!
你是&网络草根&吗
  以下只是随意描述,不一定要全部符合:  对网络的方方面面非常熟悉。做过个人网站,会HTML,最好会一种桌面编程语言(不一定要精通),精通搜索引擎的使用,精通利用网络进行学习,有10个以上邮箱帐号,粗通英文,经常上十个以上论坛灌水,会用P2P下载X级片(开个玩笑,不要当真),对网络营销有一定研究,有个人Blog,有一台个人电脑,包月上网,思维比较发散,智力至少中上&&
  就单项来说,以上描述都比较简单。更强调的是综合能力。乘写这篇文章的当儿,tuenhai()梳理概括一下自已的能力:号召力还可以,能组织团结一批人一起干事业;对管理有较深刻的理解,实践经验略显不足;对草根网络比较了解,并进行过一些小的商业尝试;做事能抓住重点,适合战略决策;能换位思考,比较好沟通;对硬件,web程序,桌面程序,项目管理有一定了解,但不够精通;文凭一般,英语刚入门,甭想进国际大公司&&总之,突出的地方不多,但综合性较强。&综合性&这个东东非常神奇,几个领域一交叉,经常会有突破性创见。
&网络草根&月赚3000的十种方法
  以下十种方法排名不分先后:
  一. 写个共享软件卖到国外赚美刀
  二. 二周做个二万日IP的个人网站,弹窗也能赚点钱
  三. 网上代理销售软件,不懂编程也赚软件的钱
  四. 做个网络小说作家,每天码字也不错
  五. 电脑写稿,网上投稿,效率高
  六.开个网店,有货源,懂营销就能成
  七. 给小企业建站,自己接活自己干
  八. 每天狂点广告,只是体力活,有点累
  九. 网上废旧物资中介,赚点中介费,现在还算是个创意
  十.你来告诉我
  以上多数方法,tuenhai有整套思路,有些方法有实践经验.因为时间关系具体操作方法省略.月赚3000也不是绝对值,运用得好可能是30000,运用得不好可能只有300.在解决温饱的前提下,关键是自己的知识能力能否取得更大提高.如王建硕所说,"30岁之前,不要在意位子和票子,因为30岁之前,能得到的,和后来的比,都不值得一提&.
                                              tuenhai于上海浦东莲中路318弄
                                               日21:41
关键词:如何利用网络赚钱,怎样利用网络赚钱,中文网络赚钱,网络赚钱方法,最赚钱的网络游戏,网络赚钱论坛,网络游戏赚钱,利用网络游戏赚钱,cashfiesta网络赚钱,网络广告赚钱,网络免费赚钱,网络赚钱的方法,利用网络赚钱的方法,网络赚钱工具,最新网络赚钱方法,怎么利用网络赚钱,利用网络赚钱,智慧网络赚钱,中国网络赚钱网,如何用网络赚钱,网络赚钱看过来,怎样靠网络赚钱,网络赚钱骗局,免费注册的网络赚钱
Tuenhai简介:Tuenhai同学对儒释道医卜命相有一定研究,对网络及英语最感兴趣,于哲学最有心得.常人利已,圣人利他,我非圣人,取道中庸.希望与各位精英交流,MSN:我的网站: /
— 岚焕 @ 5:32 pm
Dim WshShell, QQPath, QQselect,askem,MyTime&&& Set WshShell=WScript.CreateObject(&WScript.Shell&)
‘——————要修改的地方共4处,下面三行各有一处————————-&&& Dim NumArray(4),PassArray(4) ‘括号内的数字比QQ个数少1&&& QQPath=&E:\XP\Tencent\QQ\QQ.exe& ‘QQ安装目录&&& MyTime = 14000& ‘关闭前一QQ的延时,如果QQ上线较慢,改大点&&& &&& NumArray(0)= &&&&&&&&& ‘以下填上你QQ号和密码&&& PassArray(0)= &88888&
&&& NumArray(1)= &&&&& PassArray(1)= &88888&
&&& NumArray(2)= &&&&& PassArray(2)= &88888&
&&& NumArray(3)= &&&&& PassArray(3)= &88888&
&&& NumArray(4)= &&&&& PassArray(4)= &88888&&&& ‘还有QQ的话尽量加!&& &
askem = msgbox (&在本程序运行完毕前,请勿进行其他操作& & vbnewline & vbnewline && &作者:独生& _& vbnewline & && & vbnewline & vbnewline & &确定运行请按是,反之否& , _vbyesno + vbExclamation)
if askem = vbyes then ‘——————要修改的地方共4处,下面一行有一处————&

我要回帖

更多关于 matlab求数值解 的文章

 

随机推荐