点击此处查看最新的网赚项目教程
信息收集经常用到的一个工具是搜索引擎。所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出指定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境。
搜索引擎是伴随互联网的发展而产生和发展的,互联网已成为人们学习、工作和生活中不可缺少的平台,几乎每个人上网都会使用搜索引擎。目前搜索引擎已经发展到第四代搜索引擎,主要采用特征提取和文本智能化等策略。
1.2.1搜索引擎工作原理
搜索引擎原理(Principle of Search Engine),搜索引擎,通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后,这些结果将按照与搜索关键词的相关度高低(或与相关度毫没有关系),依次排列。
1.2.2网站内容爬取
为了提升网站的访问量,一般网站都会有一个robots文件,通常位于网站根目录,例如https://www.baidu.com/robots.txt,在这个目录会定义哪些允许爬取,那些禁止爬取。Disallow后的目录表示禁止。
图1 robots.txt内容结构
除了通过robots文件进行内容爬取外,也有一些基于人工智能的脚本,自动对网站内容进行爬取,例如根据xml文件结构等,通过python脚本爬取,将爬取的内容进行入库并提供再次检索。另外基于舆情的内容监控系统,完整或者部分获取所有网页内容,然后根据预设关键字进行预警和报警。
1.2.3国内外常见的一些搜索引擎
前面简单的介绍了搜索引擎基本常识,对于信息收集,利用搜索引擎主要有两个方面,一个知道有哪些搜索引擎,另外一方面就是要知道语法。在搜索时可以交叉使用。目前在开源社区也有直接将所有搜索引擎集合在一起,直接输入域名信息一键获取所有的信息。
1.百度搜索
2.必应搜索
3.360搜索
4.搜狗搜索
搜索的微信公众号搜索不错
5.爱问共享资料搜索
6.神马搜索,手机端搜索
7.知网学术搜索(可以获取系统架构、网络架构、作者等重要信息)
8.文书网(最近不好用,搜索没有效果,查询既往判例)
9.头条搜索
so.toutiao.com
10 有道搜索
11.中国搜索
12.F搜索
13.Ecosia搜索结果来自于Bing和Yahoo
14.searxng
searxng 一个尊重隐私、可二次开发的元搜索引擎。
15.Magi
Magi AI 驱动的知识引擎。能够直接用其从互联网学到的知识回答问题。
16.naver 韩国的一款搜索引擎
17.没有追搜索
18. 一个好用的”程序员搜索”goobe
19. 来自俄罗斯的一款搜索引擎yandex
20.Qwant
21.searchencrypt
备注:国外的有些搜索引擎可能需要翻墙才能访问。
1.2.4 搜索引擎的UA
1、百度
PC端:
Mozilla/5.0(compatible;Baiduspider-render/2.0;+)
移动端:
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X)AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1(compatible; Baiduspider-render/2.0; +)
2、360搜索
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, likeGecko) Chrome/50.0.2661.102 Safari/537.36; 360Spider
3、必应搜索
Mozilla/5.0 (compatible; bingbot/2.0; +)
4、头条搜索 so.toutiao.com
Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N)AppleWebKit/537.36 (KHTML,like Gecko)Chrome/41.0.6633.1032 MobileSafari/537.36;Bytespider;
5、神马搜索 m.sm.cn
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36
Mozilla/5.0 (iPhone; CPU iPhone OS 10_3 like Mac OS X)AppleWebKit/602.1.50 (KHTML, like Gecko) CriOS/56.0.2924.75 Mobile/14E5239eYisouSpider/5.0 Safari/602.1
6、谷歌搜索
Mozilla/5.0 (compatible; Googlebot/2.1;+)
7、Yandex 俄罗斯的搜索引擎
Mozilla/5.0 (compatible; YandexBot/3.0; +)
8.其他的一些
百度网页搜索 User-agent
Baiduspider
没有线搜索 User-agent
Baiduspider-mobile
图片搜索User-agent
Baiduspider-image
视频搜索 User-agent
Baiduspider-video
新闻搜索 User-agent
Baiduspider-news
———END———
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,一年会员只需98元,全站资源免费下载 点击查看详情
站 长 微 信: cai842612