正排数和倒排数有什么好倒走的正确方法视频呢?

搜索引擎原理 – 正排索引、倒排索引以及齐普夫法则
搜索引擎原理 – 正排索引、倒排索引以及齐普夫法则
我们在提交一个关键字时,搜索引擎是如何快速定位到包含有此关键字的相关页面的?这就是索引系统的功劳,索引系统负责为关键字和网页建立对应关系,使得在海量网页中迅速查找成为可能。
首先我们先介绍下索引(Index)。索引本质上是一种记录信息的信息,它本身占较小的体积,但记录了关键字在整个系统中出现的位置。日常生活中,我们也有很多使用索引的例子,比如一本图书,它的目录就是一个索引文件,每条索引记录了章节所在页码,能使读者快速翻阅至所需章节。网页被抓取并经过分析系统分析后,索引系统便会给网页一个唯一的ID,并将网页ID和位置记录在索引文件中。
需要注意的是,由于网页是海量的,为了存储和计算考虑,网页ID会尽可能的短,并且最好是长整数而不是字符串。因为字符串在排序、查找时的性能远远不如整数,并且字符串字节数多,造成存储和内存压力加大。通常情况下会把URL映射成64位或128位的二进制数。
正排索引是从网页到关键字的映射,一般含有网页ID、关键字(或关键字ID)、关键字出现次数、关键字出现位置等几个重要参数。例如给定两篇文档“中国人民爱中国”和“中国历史悠久”,经分词后创建的一个典型的正排索引如下所示:
其中,Hits代表了关键字在文档中出现次数,List代表了关键字出现在文档中的位置。
因此正排索引是通过网页来寻找关键字,可以知道一个网页中是否包含了某个关键字、关键字出现了几次以及关键字出现的位置。但是网页检索是通过关键字来找文档,因此需要把正排索引转换为倒排索引,才能满足实际的需求。
倒排索引是从关键字到文档的映射,可以分为两个部分。
第一部分为索引文件,记录了关键字(或关键字ID)、出现在多少文档中以及这些文档在文档库中的偏移量。
第二部分为文档文件,记录了文档ID、关键字出现次数以及关键字在文档中出现的位置。
例如:词“中国”在两篇文档中均出现,则nDocs=2,Offset分别为两篇文档的偏移地址。根据两个地址分别找到DocID为0002的文档。“中国”在第一篇文档中出现了2次,偏移量分别为0,3,在第二篇文档中出现了1次,偏移量为0。
这样输入任意一个关键字,通过搜索索引文件,就能找到对应的文档地址,再根据文档地址在文档文件中查找,就能找到相关文档并能显示关键字在各文档中的位置。
齐普夫法则
在一个数据集(一本书、一个网页集合等)中,排名第k的词,与其在数据集中出现的次数Nk的乘积是一个常数C,即k*Nk=C,而C约等于数据集的总词数。
又由于所有词频率出现之和为1,因此容易通过数学推导出:一个排名为k的词,它的实际词频是1/(lnC’*k),C’为数据集总词汇数(C是总词数)。
由于各词的词频不同,因此在做索引时,可以根据词频对关键字ID进行哈夫曼编码。对词频较高的词,使用短编码,词频较低的词,使用长编码,这样可以保证存储空间和查询速度的全局最优。
我的热门文章
即使是一小步也想与你分享高考数学必考排列组合全部解题方法_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
高中精品题库
最新高考模拟题
名校精品试卷
高考数学必考排列组合全部解题方法
上传于||暂无简介
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩27页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢八字算兄弟个数和排行的几种方法
八字算兄弟个数和排行的几种方法
八字算兄弟个数和排行的几种方法&以下披露一些测算方法,供大家研究参考。这些东西都曾经被奉為江湖秘诀&!&1、时辰法此法流传最广,而準确率不高。经我验证,在时辰是四库时,其準确率很低。歌诀:子午卯酉兄弟多,旺时能过席半桌。(5个以上)寅申巳亥三四个,最弱不能少两个。(2到4个)辰戌丑未独一个,若有多者也夭折。在最近面世的标价千元的盲师派断命函授资料里,有一个近似的诀,也介绍给大家:子午时,一般1个,身旺2个卯酉时,一般2个,身旺4个寅申巳亥,一般3个,身旺5个辰戌丑未独一个,再多则是大三岁以外不挨肩2、月令法此法尚较為隐秘,有一定準确度,尤其是算现存的兄弟数目。我今将其诀法首次公开:歌诀:阳日顺排阴逆数,长生数到月支处再加天干之比劫,印衰减半印旺足3、十神法之一此属於某派密传,歌诀如下:天透地藏皆為一,一禄加二二禄一(意思是,一个禄算2个数目,二禄则只算1个)男命羊刃三四个,女命羊刃四三加(男命一羊刃3个,二羊刃4个;女命一羊刃4个,二羊刃3个)男命纯阴限六人,女命纯阴只三数4、十神法之二此法已经有一部分人在运用,但在细节方面不尽相同。此法有一定準确率。方法:中和日主以比劫看较弱日主以印比看(盲派师父口授:要兼看与日主的合)较旺日主以官杀看从强格,比劫无制者是从弱格,比劫有制者是(另有师传:从什麼就以什麼算)此法根据流派不同,在计算禄刃代表的数目上有差别,有的要用到纳音&5、从时辰看排行(时辰胎次法)此法也是流传甚广,有人也反过来用它校对时辰歌诀:子午卯酉,男一四七,女二五八(意思是,这些时辰的男命是排行一、四、七胎……)寅申巳亥,男二五八,女三六九辰戌丑未,男三六九,女一四七6、从日柱看排行(六十甲子法)此法就是郭耀宗先生曾介绍过的方法,其实有其他老师也传过,方法如下:歌诀:阳干阳生必為大,不受冲刑必不差;阳干阴生需逆数,巳生数辰应记住。阴乾阴生大定準,不逢刑冲是己身;阴乾阳生顺数出,午生数未可定住。第一,要弄清楚六甲、六乙、六丙等天干的排列方法及顺序。凡阳干皆顺数,如甲子、甲戌、甲申、甲午、甲辰、甲寅,以此类推。凡阴乾皆逆数,如乙丑、乙卯、乙巳、乙未、乙酉、乙亥,以此类推。第二,运用十干寄生十二宫即生於何字,居於八卦何宫而定排行。如甲长生在亥,居乾宫。乙长生在午,居离宫等。八宫居位只是推算时的参考,并非全以卦位定排行,主要还是以长生之位和十组六列干支的顺逆排位来定。如,丁酉日主生於酉月,丁长生在酉,酉字不伤,可判定為老大;若年支為卯,卯酉相冲,就要细分五行,看谁的力量大而克过对方,以此来判定是否居大。再如,庚寅日主生辰月,庚长生於巳,阳干阴生须逆数,故庚辰為老大,庚寅為老二,若柱中有申冲寅,还须详作分析,另加判断而定。&&推断排行有个规律即:阳日干阳长生或阴日干阴长生均為老大。遇到阳日干阴长生如庚為阳日干,巳為阴长生,巳、辰同宫则从辰起。阴日干阳长生如乙為阴日干,午為阳长生,午从未起,以此推排。以上是中国名师与台湾大师的理论结合批露&以下是香港的命学大师比较流行也比较少人流传的方法一.暗合法:(此法在港澳十分盛行)&&其实很多八字用一般方法很难断准兄弟数目,其实是我们忽略了地支藏干与日元的暗合,和暗合之比劫。此法适用於农村和国外,大城市则有变化。现举一例:&&&&&年&&&月&&&日&&&时&&男:&乙&&&庚&&&己&&&壬&&&&&巳&&&辰&&&亥&&&申&&&&庚丙戊&乙戊癸&&壬甲&戊庚壬&&分析:单看八字,很难断准几个兄弟。我用暗合法测算如下:&&己土為一个,地支藏干3个戊為3个,戊癸相合,又多3个。甲己合,甲算一个。甲的劫财乙,算上一个,共9个。(验证:确為9个兄妹)&&二.姓名法:&&五音姓名学中,名字的最后一字為兄弟、儿女宫位。例如上造之名:韦柏超,超字十二画,结合神数為3、6、9、12,可定為9个,如此类推。&&三.时辰法:&&以上造為例:申时,神数中寅、申、巳、亥為3、6、9、12数。可断為9个(子午卯酉為1、4、7、10,辰戌丑未為2、5、8、11)餘类推。&&以上三法可综合应用,相信预测率会大大提高。最后公佈盲师歷代只可言传口述&&不可著书立纸的诀窍诀日:&兄弟数目秉天地&先观自身旺衰基&身旺官杀论手足&身衰比劫印梟齐&数目不投君莫急&相合五行未算里&中和偏极认常理&只取比劫做兄弟&此诀正五行与纳音五行兼论,这是诀里的真机。此法对於辅助判断日主衰旺及确定出生时辰有极大的用处。但各位需注意,盲师所论的日主衰旺与正常人用通根等理所论之衰旺是不一样的,特作此说明。&看兄妹个数排行寄养及异性手足口决&&:
发表评论:
馆藏&11356
TA的最新馆藏 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
基于给定的文档生成倒排索引
下载积分:1600
内容提示:基于给定的文档生成倒排索引
文档格式:PDF|
浏览次数:19|
上传日期: 06:10:39|
文档星级:
该用户还上传了这些文档
基于给定的文档生成倒排索引
官方公共微信

我要回帖

更多关于 过去祖坟排倒方法 的文章

 

随机推荐