关于互联网视听节目监测中网络爬虫的应用研究

编辑:来源:22人阅2017-06-05 18:29:23

饶军 华申峰 吴晓璐
(江西省新闻出版广电监管中心)
【摘要】
本文主要介绍了网络爬虫技术在互联网视听节目监测系统中的应用,并结合互联网视听节目监测的特点,阐述了一种基于视听节目特征搜索的网络爬虫系统的基本思路与组成,在一定程度上解决了传统网络爬虫耗费网络资源、耗费人力、硬件开销大、速度慢,而且搜不全的问题,并通过网络爬虫系统的实际应用,有效地提高了互联网视听节目的搜索速度的同时,降低了网络资源的开销与监测过程中的人工劳动强度。
【关键词】
网络爬虫 视听节目 监测

1 引言

随着互联网技术和视听节目传播技术的发展,用户通过上网获取娱乐内容的需求超过了对信息和通信的需求,鉴于互联网视听节目的影响力日益扩大,迫切需要对这些节目进行全面、有效的管理。而针对互联网视听节目的监测离不开对互联网信息的采集。

2 网络爬虫技术

网络爬虫技术互联网信息采集系统的核心技术之一。针对业内进行互联网爬虫开发普遍遇到的如抓取量巨大、网页更新频繁等难题,以及互联网视听节目监测特定应用的一些如专注地域性、专注网站证件、专注音视频节目等特定需求,我们将网络爬虫技术区分为以下几种类型。
(1)全网蔓延爬虫技术
对互联网上的网站进行广度搜索,我们称之为全网蔓延爬虫技术。该爬虫技术的特点是广泛搜索,搜索深度浅,速度快,常用于发现新的视听网站,并获取视听网站信息,例如网站域名、网站服务器IP地址、ICP备案号、网站视听服务许可证号等信息。
(2)深度搜索爬虫技术
对互联网上的目标网站进行全面的深度搜索,我们称之为深度搜索爬虫技术。该爬虫技术的特点是搜索目标明确,搜索周期较长,常用于例行发现网站中的目标信息(如视听节目信息)。
(3)定制搜索爬虫技术
针对互联网特定目标网站进行临时深度搜索,着重对用户临时关心的一些事件、专题、话题进行重点深度爬取,完成一些突发性的专项搜索任务。主要用于提取网站中相关事件、专题、话题的视听节目内容,该爬虫技术具有目标性强、快速准确等特点。

3 基于视听节目特征搜索的网络爬虫系统

上述网络爬虫技术各有特点,全网蔓延爬虫搜索速度快,但是用于视听节目搜索,则无法保证查全率;深度搜索爬虫能够保证视听节目搜索的查全率,但是搜索速度慢、周期长,无法满足监测要求;定制搜索爬虫搜索速度快,目标性强,能够保证查准率,但是无法保证查全率。如果将上述网络爬虫技术单一地应用到互联网视听节目监测中,无法真正满足监测业务的要求。
因此结合上述网络爬虫技术,以及互联网视听节目监测的业务需要,我们开发了一种基于视听节目特征搜索的网络爬虫系统,在有限网络资源的情况下,保证查全率与查准率的同时,实现互联网视听节目的快速搜索。

3.1 基本思路

该网络爬虫的基本思路如下图所示:
\
首先依据预设的搜索词库,通过各大搜索引擎快速缩小搜索范围;针对缩小范围后含有目标视听节目的“可疑”网站进行“外链”分析,广泛搜索含有目标视听节目的其他“可疑”视听网站;最后,对所有“可疑”的视听网站进行基于各视听网站首页的“搜索框”进行词库搜索,最终定位目标视听节目所在的网站以及网页链接并入库。
从而实现在已知搜索词库的情况下,在互联网中快速搜索含有相关视听节目的网页链接与视听网站。

3.2 搜索“可疑”视听网站

根据预设的搜索词库,利用计算机在各大主流搜索引擎(谷歌、百度、搜狗、有道、搜库、搜搜、即刻等搜索引擎)中搜索含有目标视听节目的“可疑”网站,其步骤如下:
1)首先计算机根据各主流搜索引擎的搜索语法,模拟人的行为访问各主流搜索引擎进行预设词库的搜索;
2)对搜索到结果的网页链接进行URL地址的分析,按照国际域名规范解析URL地址的所属网站域名,对这些所属的网站域名进行排重;
3)对网站域名进行访问,下载并分析其首页文本链接,结合文本特征、代码特征、播放器特征对网站进行研判,判断其是否为视听网站(即包含有视听网页),如果为视听网站则标记为“可疑”网站并入库。

3.3 外链分析、广泛搜索其他“可疑”视听网站

利用计算机针对“可疑”网站进行“外链”分析,广泛搜索其他“可疑”视听网站。
1)对已标记为“可疑”的网站中的链接进行分析,解析链接中的主域名,判别该主域名与本网站的域名是否相同,如果不相同则为“外链”;
2)对“外链”的所属网站进行排重,并针对排重后的网站进一步分析,下载并分析这些“外链”网站的首页文本链接,结合文本特征、代码特征、播放器特征对网站进行研判,判断其是否为视听网站,如果是视听网站,则标记为其他“可疑”网站。

3.4 基于“搜索框”的视听节目搜索

根据计算机事先学习的站内“搜索框”特征,利用计算机自动识别“可疑”视听网站中的“搜索框”,并由计算机模拟人的行为针对预设的搜索词库进行站内搜索,最终定位目标视听节目所在的网站以及视听网页链接并入库,其步骤如下:
1)汇总第一次搜集到的“可疑”网站,与第二次根据“外链”搜集到的其他“可疑”网站,结合其首页(之前已下载到本地)的文本特征、代码特征,分析其网站中“搜索框”类型;
2)根据其“搜索框”类型,由计算机模拟人的行为针对预设的搜索词库在本“可疑”网站中进行站内搜索,并将命中的视听节目网页链接入库保存。

4 系统的特点与优势

与传统类型的网络爬虫相比,该网络爬虫系统很好地解决了传统搜索方法耗费人力、硬件开销大、速度慢,而且搜不全的缺点,能够在短时间内查找到目标视听节目与视听网站。
同时,该网络爬虫系统不需要人为搜集“种子”站点,首先通过计算机利用各大主流搜索引擎工具缩小搜索范围,发现“可疑”视听网站,其次进一步扩散蔓延,针对“外链”进一步搜集其他的“可疑”网站,最后通过计算机识别网站“搜索框”,在视听网站内模拟人的行为对关键词库进行站内搜索,从而规避传统垂直搜索方法搜索深度有限的缺点,能够既快又准地找到目标视听节目所在的网页链接与网站。
该网络爬虫系统已经在很多互联网视听节目监测领域中得到了广泛应用,很好地解决了日常监测中人工劳动强度大,视听节目搜索速度慢、周期长的问题,得到了广大用户的认同。

5 结束语

网络爬虫系统是互联网视听节目监测系统中的核心组件,在视听节目数据搜索与采集方面发挥着重要作用。
当前随着互联网的不断发展,网民数量的迅猛增加,网络中的视听节目已经呈现海量化的趋势,如何在网络资源、人力资源有限,但信息监管查全率、查准率要求高,搜索周期要求短的情况下,确保互联网中海量视听节目信息的全面搜集与有效监管成为当前亟待解决的问题。
本文通过将各大搜索引擎与站内“搜索框”识别与搜索技术相结合,在一定程度上解决了上述问题,并通过网络爬虫系统的实际应用,有效地提高了互联网视听节目的搜索速度的同时,降低了网络资源的开销与监测过程中的人工劳动强度。
 
【参考文献】
[1] 何志文 郭利刚 搜索引擎技术在互联网音视频节目监测系统中的应用. 广播与电视技术,2009年03期.
[2] 邓焕根 网络爬虫在舆情监测中的应用研究. 广东科技,2014年06期.
[3]张军强 李炜 沈奇威 一种爬虫监控系统的设计与实现. 电信工程技术与标准化,2014年12期.