专利内容由知识产权出版社提供
专利名称:基于网络爬虫的热点词汇提取方法、装置、终端及
介质
专利类型:发明专利发明人:崔凯,王健宗
申请号:CN201911060879.8申请日:20191101公开号:CN111026942A公开日:20200417
摘要:本发明提供一种基于网络爬虫的热点词汇提取方法,包括:初始化网址队列,网址队列中存储有至少一个URL,URL包括第一URL和第二URL,启动第一线程从第一URL中爬取的第二URL与网址队列中的URL不同时添加至网址队列的尾部,启动第二线程从网址队列的头部获取URL及URL对应的超文本标记语言文档,第一线程与第二线程并行执行;提取超文本标记语言文档中的文本数据集进行分词处理后统计每个词汇出现的频率;将频率大于预设频率阈值的词汇作为热点词汇。本发明还提供一种基于网络爬虫的热点词汇提取装置、终端及介质。本发明通过一边在网址队列的尾部添加URL一边在网址队列的头部获取URL对应的超文本标记语言文档,防止了资源冲突,提高了热点词汇提取的效率。
申请人:平安科技(深圳)有限公司
地址:518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
国籍:CN
代理机构:深圳市赛恩倍吉知识产权代理有限公司
更多信息请下载全文后查看