求知

探索知识边界,点亮智慧之光

如何挖掘收录口子之搜狗强制收录法-搜狗网页翻译(17年流行)

搜索杂谈

如何挖掘收录口子之搜狗强制收录法-谷歌/百度收录+搜狗浏览器(18年流行)

搜索杂谈

如何挖掘收录口子之搜狗强制收录法-模拟用户行为,“您可以直接访问 XXX”

搜索杂谈

基于百度开源项目LAC实现批量文本分词

常用工具

多线程,查询关键词竞品覆盖率

根据关键词(越多数据约精确),查询百度移动端竞品覆盖情况,毕竟移动流量才是大头,下方是btc类资讯内容竞品覆盖情况,基本就是币界,比百科,脚本之家等等。第一列是网址,第二列就是覆盖率,数字越大覆盖的就越多。记得替换cookie

疑问词提取,python

简单疑问词提取,依据疑问词词根提取# -*- coding: utf-8 -*- import sys # 用法示例:python3 filter_kw.py 关键词.txt 结果.txt # 获取命令行参数,分别获取关键词文件和结果文件名 kwfile, retfile = sys.argv[-2:] filters = {'难道','岂','居然','竟然','究竟','简直','难怪','反倒','何尝','何必','吗','呢','吧','啊','怎','么','如何','什么','谁','何','哪','几时','多少','那','多久','嘛',} ret = open(retfile, mode='w', encoding='utf-8') with open(kwfile, encoding='utf-8') as f:     for line in f:         for w in filters:             if w in line:                 ret.write(line)                 break         ret.flush() ret.close()
加载更多