垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据进行进一步的加工处理,如:去重、分类等,最后分词、建立索引再以搜索的方式满足用户的需求。
本公司的搜索引擎产品是典型的垂直性搜索引擎,可以广大应用于以下领域
商业情报采集和分析,企业竞争情报系统CIS(Competitive Intelligence System)新闻监测和分析,情报采集和跟踪
网站门户,内外网信息发布,办公系统信息化建设
电子商务,信息分门归类及整合,
各种媒体和出版行业
档案管理系统
数字图书馆,电子书
各种应用系统数据信息的管理、分析和挖掘
本公司拥有多位资深的搜索引擎开发人员,并且已经为多家知名企业提供搜索引擎服务,
我们的垂直搜索引擎产品的准确性与速度也获得了众多用户的好评,每天的页面抓取能力在千万以上。并在千万级别数据下检索速率在0.5s以内,欢迎来信获取相关产品资料及报价。
主要面向客户和应用领域:
个人或小型企业用户,建立小型的垂直搜索网站系统。或是教学研究用途,
功能及特点:
(1)核心技术
A.网络爬虫/Spider技术;
B.网页块分析正文抽取;
C.通过用户自定义分类,聚类;
D.网页非结构化信息抽取;
E.面向搜索基于词库的中文切分词;
F.url和标题去重;
G.多语言,编码格式自动识别;
(2)功能列表;
A.常用功能;
启动/停止采集;
索引数据结构定义;
采集规则定义;
抽取规则定义;
系统信息浏览;
B.数据采集
分类管理;
网站管理;
网站地址管理;
URL发生器;
采集规则定义;
抽取规则定义;
C.索引系统
词库定义;
登录新词;
索引数据结构定义;
D.系统管理
修改密码;
设置采集线程数;
设置搜索深度;
日志管理;
E.二次开发接口
查询--按条件查询;
查询--排序规则定义;
查询--按时间排序查询;
查询--按相关度排序查询;
数据维护--新增一条索引数据;
数据维护--修改一条索引数据;
数据维护--删除一条索引数据;
应用--获取分类列表;
(3)特点
A.产品稳定
该版本使用的是2006年公司的垂直搜索标准版的内核,经过长期的销售和使用积累已经进入了稳定期,产品的功能和性能极其稳定。
C.操作简易
在经过一年多的产品销售和调整,并吸收了很多客户的合理化建议的基础上,在客户的易用性和界面、操作人性化方面已具有很高的水准,不仅界面简洁可观,在各个操作上均有友好的提示和帮助词语,不需要太多的专业知识即可熟练使用本产品。
D.多数据库支持
支持各种主流数据库,如MSSQL、Access、MySQL、Oracle、DB2、Sybase等。
服务器要求:
(1)CPU: P4 2.0以上
(2)内存:1G以上
(3)硬盘:80G以上
(4)网络分配带宽:共享百M,或者独享1M以上
性能指标:
(1)支持安装服务器1台
(2)支持数据量200万以内
(3)查询效率 平均0.8s以内
(4)每天可抓取并更新数据量 10万以内
其它服务:
(1)免费mail,QQ,MSN技术支持服务
(2)免费技术论坛支持服务
(3)免费5x8小时电话支持服务
(4)免费二次开发技术支持
(5)终身免费补丁服务