版权声明:本博客作品默认采用 知识共享署名-非商业性使用-相同方式共享 /wn314/article/details/
第一个函数createKey是在做URL的压缩它将任意长度的URL转换成一个long型的值。long型的取值范围有2^64因此两个URL映射成同一个long型值的概率应该挺低的。但我也没太细看这个函数所以它的效果到底如何不确定。
别看setAdd有这么多行真正有用的就这一行:
比较遗憾的是,我还没抽出空对BerkeleyDB这个方案做性能测试不确定它每秒能執行多少次setAdd操作,是否足够满足我们性能的要求以后补上。
另外虽然我不了解,但我认为像百度这样专业的搜索引擎它的爬虫的URL去偅方案可能比这里列举的要复杂的多,毕竟那个的各方面的要求也要更高