的个人主页 http://faculty.nuaa.edu.cn/zhy3/zh_CN/index.htm
点击次数:
所属单位:计算机科学与技术学院/人工智能学院/软件学院
发表刊物:大学教育
关键字:资源库;网络爬虫;分布式爬取;SimHash算法;
摘要:目前,在国内高校中程序设计课程的资源库建设工作尚未普及,大多数教学资源存在较为严重的老旧、重复等问题,难以满足师生日益增长的对大量新颖教学资源的需求。针对现在流行的网络爬虫框架进行分析和选择,在现有框架的基础上设计了一种适合资源库建设的爬虫系统,利用爬虫的自动化特性完成教学资源库的内容获取及入库工作。同时,选用Scrapyredis对爬虫进行拓展,利用Redis实现对目标网站资源的分布式爬取,提高获取资源的速度。选用SimHash算法对爬取到的资源内容进行相似度判别,过滤掉相似度过高的资源,完成对资源库的增量更新,提高获取到的资源的质量。经测试,研究的系统初步满足资源库建设的自动化需求,能够获取有效的教学资源。
ISSN号:2095-3437
是否译文:否
发表时间:2019-09-01
通讯作者:郑洪源