基于Coreseek的垂直搜索引擎研究与优化的方法

文章描述:-2022年2月18日发(作者:wcdma和cdma)(19)中华人民共和国国家知识产权局 (12)发明专利申请 (21)申请号 C2.X (22)申请日 2016.04.11 (71)申请人 天津大学 地址 天津市南开区卫津路92号 (10)申请公布号 C2A (43)申请公布日 2016.08.31 (72)发明人 喻梅;郭佳;于健;王建荣;高洁;姜月

-

基于Coreseek的垂直搜索引擎研究与优化的方法 2022年2月18日发(作者:wcdma和cdma)


(19)中华人民共和国国家知识产权局

(12)发明专利申请



(21)申请号 C2.X

(22)申请日 2016.04.11

(71)申请人 天津大学

地址 300072 天津市南开区卫津路92号


(10)申请公布号
C105912662A

(43)申请公布日 2016.08.31

(72)发明人 喻梅;郭佳;于健;王建荣;高洁;姜月

(74)专利代理机构 天津市北洋有限责任专利代理事务所

代理人 杜文茹

(51)

G06F1730;

权利要求说明书 说明书 幅图

(54)发明名称

基于Coreseek的垂直搜索引擎研究与优化的方法

(57)摘要

一种基于Coreseek的垂直搜索引擎研究

与优化的方法:通过对图书领域的网站进行分
析,将待爬取的关于图书的网页作为种子链接,
进行爬取信息;对主题爬虫爬取到的图书网页信
息进行结构化抽取,把非结构化的数据转化为结
构化数据;扩充LibMMSeg分词库,将结构化的数
据存入数据库,并进行中文分词,使用Coreseek
建立索引,通过主题爬虫系统从互动出版社网站

-

基于Coreseek的垂直搜索引擎研究与优化的方法

发布时间:2022-02-18 23:53:08
文章版权声明:除非注明,否则均为IT技术网-学习WEB前端开发等IT技术的网络平台原创文章,转载或复制请以超链接形式并注明出处。

发表评论

评论列表 (有 18 条评论,920人围观)

最近发表

随便看看

热门文章

标签列表