|
|
张力本地搜索引擎功能介绍
在搜索技术越来越被人们所看好的今天,利用搜索技术整合本地互联网站的海量信息资源,提供专业和定向的搜索服务,已经成为信息化建设的热点。张力本地搜索引擎由三部分构成:采集器、索引器、检索器。智能化网络资源采集机器人担任网络信息的采集工作,全文数据库服务器提供海量信息的分布存储和即时索引,并提供全文检索和多种特征检索功能以及多种输出结果处理功能。
信息采集
张力本地搜索引擎不但能搜索网页内容,而且能搜索各种RDBMS、文件系统,以及散布在企业各个角落的邮件、图片等非结构化数据, 从而提供更加全面的信息搜索应用。
搜索机器人采用多线程并发搜索技术,可以根据实际情况动态调节线程数目,实现多线程并发搜索。同时,可以设置多个机器人协同工作,共同完成信息采集任务,实现信息的分布式采集,从而提高采集效率,缩短采集时间。
支持包括广度优先,深度优先在内的多种采集策略;提供高效更新功能,对于已经采集过的网站,更新时只采集发生变化和新加入的资源,保证信息的实效性。
允许用户进行多种配置,具体包括:采集时间配置、信息采集的资源类型配置、信息采集的网址范围配置、信息采集的数量配置等,从而满足不同用户的不同需求。
系统支持多种格式文件的存储、索引和检索。支持多媒体数据的存储管理。支持多语种、多编码管理。实现了高效的数据和索引压缩,超低空间膨胀。
分布式体系结构,可以建立多个全文数据库服务器的集群结构,并在应用层实现透明访问全文数据库服务器的集群成倍提高系统的计算能力和扩展能力,并可轻松扩展系统规模,满足用户随需应变的需要。
张力本地搜索引擎的检索服务为用户提供丰富的功能,除了支持标准搜索引擎所提供的全文检索之外,还支持多种特征检索,比如按发布日期检索、按关键词检索、按标题检索、按URL名称检索等,支持拼音检索、相关短语检索、扩展检索、相似性检索等智能功能。搜索引擎对于检索结果还支持多种排序操作和自动聚类功能。
技术架构
信息层:互联网信息及内部异构信息;
采集层:分布式并发采集;
加工层:基于内容的智能加工;
数据存储中心:海量信息分布式存储和负载均衡;
用户层:提供全文检索和多种特征检索以及智能检索方式。
……
本方案全文约计12000字,需要者请联系我们。邮箱:Myzhangli@gmail.com |
|
|