Affiliation of Author(s):计算机科学与技术学院/人工智能学院/软件学院
Journal:大学教育
Key Words:资源库;网络爬虫;分布式爬取;SimHash算法;
Abstract:目前,在国内高校中程序设计课程的资源库建设工作尚未普及,大多数教学资源存在较为严重的老旧、重复等问题,难以满足师生日益增长的对大量新颖教学资源的需求。针对现在流行的网络爬虫框架进行分析和选择,在现有框架的基础上设计了一种适合资源库建设的爬虫系统,利用爬虫的自动化特性完成教学资源库的内容获取及入库工作。同时,选用Scrapyredis对爬虫进行拓展,利用Redis实现对目标网站资源的分布式爬取,提高获取资源的速度。选用SimHash算法对爬取到的资源内容进行相似度判别,过滤掉相似度过高的资源,完成对资源库的增量更新,提高获取到的资源的质量。经测试,研究的系统初步满足资源库建设的自动化需求,能够获取有效的教学资源。
ISSN No.:2095-3437
Translation or Not:no
Date of Publication:2019-09-01
Correspondence Author:Frank
Date of Publication:2019-09-01
Frank
+
Gender:Male
Education Level:南京航空航天大学
Alma Mater:南京航空航天大学
Paper Publications
基于主题网络爬虫的程序设计资源库建设研究
Date of Publication:2019-09-01 Hits: