`
囧囧有神
  • 浏览: 204562 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

倒排索引和正排索引的优化点

阅读更多

搜索系统中对于索引和字典的存储主要面临两大挑战:

1.数据压缩

2.快速地检索和排序

 

正排表的存储有如下两个点来压缩数据:

1.正排表词在在DOC中出现的为止采用单调递增差分存储,这样存储这个数字序列的时候可以用尽可能少的字节数来存,达到压缩效果

 

2.在存储文档中所有WORD ID的时候在最后一个词后面插入一个NULL,并且采用非结构化方式存储可以减少很多冗余的DOCID的存储

 

分享到:
评论

相关推荐

    倒排索引与布尔查询

    对所给的Tweets数据集建立倒排索引; 实现Boolean Retrieval Model,使用TREC 2014 test topics进行测试; Boolean Retrieval Model中支持and, or ,not,查询优化可选做;

    基于给定的文档生成倒排索引的全部源码

    本系统源码是个人原创文章系列,程序员编程艺术第二十六章:基于给定的文档生成倒排索引的编码与实践的整个工程源码 look:http://blog.csdn.net/v_july_v/article/details/7109500 windows下VS2010,linux环境下皆...

    spark实现财经新闻搜索引擎(正文提取、中文分词、倒排索引构建、执行搜索)

    从财经新闻网页数据开始,进行正文提取、中文分词、倒排索引构建、执行搜索和UI。 要求技术:MapReduce或Spark;执行搜索和UI采用Spark或Java 步骤: (1)新闻正文提取,采用正则表达式提取指定网站栏目新闻的标题...

    实体识别与倒排索引优化实验数据

    Amazon和Google的商品项目表CSV文件,以及已有的实体识别对照表,可以用来与你自己做出来的结果对照。

    论文研究-一种倒排索引压缩方法.pdf

    针对自适应分段压缩ASCS算法进行了研究,对于ASCS算法中采用的均匀分段方式并非最优分段问题,提出以人工蜂群算法优化ASCS算法中的分段方式;...通过对比实验证明,优化改进后的算法可以较显著地压缩倒排索引。

    论文研究-编码单位可变的倒排索引压缩算法研究.pdf

    倒排索引是大多数大型文本搜索系统的核心数据结构,索引压缩可以有效地减少倒排索引的空间占用,提升检索效率。...通过对比实验验证了改进优化的PVU编码相较于传统的字节对齐编码能够更好地压缩倒排索引序列。

    论文研究-倒排索引优化的波形激光雷达数据存储和访问.pdf

    设计实现了一种基于倒排索引的文件格式,建立了从波形数据到属于该束激光脉冲的点云的倒排映射关系,消除了LAS1.3文件中波形数据访问的无序性,也大大降低了波形数据处理过程中程序访问的复杂性。实验表明,新的索引...

    使用倒排索引优化面向组合的语义服务发现1

    摘要:提出为服务库中所有注册服务的输出建立倒排索引,以快速、准确、高效地发现目标服务.即为每个输出维护一个服务列表,用于记录在该服务库中所有能够产生该输出的服务

    使用复合键优化倒排索引

    NULL 博文链接:https://yizhenn.iteye.com/blog/2151793

    基于hadoop实现的维基百科词条倒排索引+源代码+文档说明+配置过程文档

    1、资源内容:基于hadoop实现维基百科词条倒排索引+源代码+文档说明+配置过程文档 2、代码特点:内含运行结果,不会运行可私信,参数化编程、参数可方便更改、代码编程思路清晰、注释明细,都经过测试运行成功,功能...

    Inverted_index:使用map reduce优化搜索引擎倒排索引构建

    Inverted_index 使用map reduce优化搜索引擎的倒排索引构建。

    时间序列数据库的秘密(二)——索引

    Elasticsearch是通过Lucene的倒排索引技术实现比关系型数据库更快的过滤。特别是它对多条件的过滤支持非常好,比如年龄在18和30之间,性别为女性这样的组合查询。倒排索引很多地方都有介绍,但是其比关系型数据库的b...

    lucene索引结构与时空优化

    第一章 Lucene是个倒排索引 第二章 Lucene与数据库 第三章 Lucene的索引建立及文件结构 第四章 Lucene的检索机制及文档得分 第五章 Lucene的存储优化 第六章 Lucene的效率优化 第七章 用Lucene加快web开发!

    HCIP-Big Data Developer V2.0视频.zip

    目录网盘文件永久链接 1.1 大数据主流技术 1.2 大数据场景化解决方案 ...3.18 ElasticSearch缓存和倒排索引 3.19 ElasticSearch索引和搜索流程 3.2 行业应用和诉求 3.20 ElasticSearch客户端和SQL使用 .....

    MySQL全文索引实现简单版搜索引擎实例代码

    前言 只有Innodb和myisam存储引擎能用全文索引(innodb支持全文索引是从mysql5.6开始的) char、varchar、text类型字段能创建全文索引(fulltext index type) ... 全文索引的原理的倒排索引(一种数据结

    lucene搜索引擎【代码以及jar包】

     (2)在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。  (3)优秀的面向对象的系统架构,使得对于Lucene...

    高性能网页索引器JU_Indexer 的实现 (2006年)

    高性能网页索引器JU_Indexer 用倒排索引表存储网页索引数据,以多线程并行的方式对网页建立索引数据,采用经过优化的检索算法实现用户的查询。首先给出了JU_Indexer的系统框架,然后描述了索引数据在JU_Indexer中的...

    论文研究-基于Lucene的地名数据库快速检索系统.pdf

    其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条...

    论文研究-高能物理事例级数据管理与传输系统的研究.pdf

    设计了一个基于Nosql数据库的事例索引系统,通过事例数据特征抽取,选取物理学家最感兴趣的属性作为索引,存储在数据库中,并采用倒排索引技术,提高事例数据检索的效率。针对事例数据进行缓存优化,减少数据转化和...

Global site tag (gtag.js) - Google Analytics