HubbleDotNet 开源全文搜索数据库项目--内存索引
经过2周多的努力,HubbleDotNet 的内存索引功能终于搞好了。有了内存索引,搜索不再去读硬盘,实时性大大提高了。hubble的内存索引不同于lucene 的内存索引,本文将具体介绍一下hubble 的内存索引功能。
hubbledotnet 的内存索引被设计为一个可管理的可以持久化的内存索引,它和lucene
http://www.cyqdata.cn/cnblogs/article-detail-42774
HubbleDotNet--自定义分词器
HubbleDotNet 在设计之初就定位为一个开放式的搜索平台,分词器,得分算法,数据库适配器,存储过程,函数等等都可以通过编写自定义的插件来定制。目前版本分词器,数据库适配器的自定义接口已经开放,得分算法的自定义接口也将在最近开放出来。本文将讲述如何编写自己的分词器。
HubbleDotNet 本身自带了3个分词器,分别是盘古分词,简单分词和英文分词。但对于搜索应用来说,仅仅这3种分词器是不够
http://www.cyqdata.cn/cnblogs/article-detail-38996
HubbleDotNet--异步通讯模式
HubbleDotNet 1.1.2 以前版本客户端和服务器之间都是同步 TCP Socket 方式通讯,这种方式要为每个连接保持一个TCP通道,每次建立连接都要创建新的TCP连接,效率很低。而且有最大连接数限制,当服务器很忙时,1.1.2以前版本经常会出现 Too many connects on server 错误,虽然通过增大 MaxConnectNum 的值可以缓解,但无法根治。1.1.2
http://www.cyqdata.cn/cnblogs/article-detail-38589
HubbleDotNet 分布式检索算法介绍 (一)
作者:eaglet
转载请注明出处
全文索引的分布式检索粗想想似乎很简单,感觉就是把多个接入点搜索出来的数据做个合并排序就可以,但如果想要做好,满足商业应用要求,这里面涉及到很多算法优化的问题,比如多路排序的优化,动态路由,翻页的优化,通讯的优化,分发复制,冗余和故障转移等等。从今天开始,我将逐步讲解HubbleDotNet 在分布式检索方面的众多算法考虑。
由于涉及的算法很多,无法在一篇全部阐述
http://www.cyqdata.cn/cnblogs/article-detail-37496
HubbleDotNet 软件架构
HubbleDotNet 目前已经有很多用户,但大部分用户还仅仅停留在使用层面,真正深入去研究和了解的人不是很多。作为一个开源项目,HubbleDotNet 除了可以提供应用的需要外,其本身的代码对希望了解信息检索和底层软件开发技术的开发人员也应该有一定的参考作用。为了方便对这方面感兴趣的开发人员阅读和理解 HubbleDotNet 的代码,我把HubbleDotNet 的软件设计架构公布出来,供
http://www.cyqdata.cn/cnblogs/article-detail-31711