您好,欢迎来到爱玩科技网。
搜索
您的当前位置:首页基于网络爬虫的热点词汇提取方法、装置、终端及介质[发明专利]

基于网络爬虫的热点词汇提取方法、装置、终端及介质[发明专利]

来源:爱玩科技网
专利内容由知识产权出版社提供

专利名称:基于网络爬虫的热点词汇提取方法、装置、终端及

介质

专利类型:发明专利发明人:崔凯,王健宗

申请号:CN201911060879.8申请日:20191101公开号:CN111026942A公开日:20200417

摘要:本发明提供一种基于网络爬虫的热点词汇提取方法,包括:初始化网址队列,网址队列中存储有至少一个URL,URL包括第一URL和第二URL,启动第一线程从第一URL中爬取的第二URL与网址队列中的URL不同时添加至网址队列的尾部,启动第二线程从网址队列的头部获取URL及URL对应的超文本标记语言文档,第一线程与第二线程并行执行;提取超文本标记语言文档中的文本数据集进行分词处理后统计每个词汇出现的频率;将频率大于预设频率阈值的词汇作为热点词汇。本发明还提供一种基于网络爬虫的热点词汇提取装置、终端及介质。本发明通过一边在网址队列的尾部添加URL一边在网址队列的头部获取URL对应的超文本标记语言文档,防止了资源冲突,提高了热点词汇提取的效率。

申请人:平安科技(深圳)有限公司

地址:518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

国籍:CN

代理机构:深圳市赛恩倍吉知识产权代理有限公司

更多信息请下载全文后查看

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- aiwanbo.com 版权所有 赣ICP备2024042808号-3

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务