信息检索解决方案背景分析


保存在数据库中的记录数据,从类型上可以分为两种。其一是结构化数据,象字符、日期、数值、货币等,这些数据都是具有有限长度或固定格式的数据;其二是非结构化数据,也叫全文数据,象简历、简介、论文等,这些数据都是以不定长、非固定格式保存的字符型数据。

现有的数据库系统,都是以结构化数据为检索的主要目标,因为实现相对简单。比如数值检索,可以建立一张排序好的索引表,以二分法实现查找,速度很快。但对于非结构化数据,即全文数据,要想实现全文检索,相对难度要大的很多了。

当然,你也许会说:“这个多简单呀,把全文数据读到内存,然后进行比较查找不就可以了?”不错,的确是一个很朴素想法。不过最严重的 问题是,如果数据库中有1万条,10万条,100万条记录的话,可以想象一下检索所消耗的时间了吧?!如果一个全文数据库系统,对一条检索命令的响应时间 超过了半分钟,那么没有用户是能够容忍的了。

因此,全文检索的主要目的,就是实现对大容量的非结构化数据的快速查找。

信息检索解决方案分析


B/S 全文检索系统的核心功能是实现对中小型规模数据量(500万级以上)站点信息的统一全文检索。全文检索是指在“海量”信息中快速、准确根据关键词句返回用户所需的信息。
B/S 不仅追求高准确率同时追求超高查全率的手段,内部采用自主研发的复方词法分析系统。搜索结果可以按字段值或信息相关性排序,多字段联合搜索,基于字段的层级命中数量估算,支持字段数值的区间搜索,支持大量的布尔搜索语法规则。
B/S它还是一个可完全定制的全文检索解决方案套件,前台和接口(API)调用采用 PHP 编写,运行在 Linux/BSD 等 Unix 类操作系统中。

信息检索解决方案总结


全文检索引擎以先进的信息整合处理技术为核心,为政府及企业建设高性能信息检索平台,能够将分散的多种信息集中检索,让用户在一个检索界面即可获取到所需的各种相关信息,不论是内网的网页、办公的文档、行业的数据库,对于Goonie都能提供完美的检索解决方案。