扫描手机二维码

欢迎您的访问
您是第 位访客

开通时间:..

最后更新时间:..

  • 郑洪源 ( 副教授 )

    的个人主页 http://faculty.nuaa.edu.cn/zhy3/zh_CN/index.htm

  •   副教授   硕士生导师
  • 招生学科专业:
    计算机科学与技术 -- 【招收硕士研究生】 -- 计算机科学与技术学院
    软件工程 -- 【招收硕士研究生】 -- 计算机科学与技术学院
    电子信息 -- 【招收硕士研究生】 -- 计算机科学与技术学院
论文成果 当前位置: 中文主页 >> 科学研究 >> 论文成果
基于主题网络爬虫的程序设计资源库建设研究

点击次数:
所属单位:计算机科学与技术学院/人工智能学院/软件学院
发表刊物:大学教育
关键字:资源库;网络爬虫;分布式爬取;SimHash算法;
摘要:目前,在国内高校中程序设计课程的资源库建设工作尚未普及,大多数教学资源存在较为严重的老旧、重复等问题,难以满足师生日益增长的对大量新颖教学资源的需求。针对现在流行的网络爬虫框架进行分析和选择,在现有框架的基础上设计了一种适合资源库建设的爬虫系统,利用爬虫的自动化特性完成教学资源库的内容获取及入库工作。同时,选用Scrapyredis对爬虫进行拓展,利用Redis实现对目标网站资源的分布式爬取,提高获取资源的速度。选用SimHash算法对爬取到的资源内容进行相似度判别,过滤掉相似度过高的资源,完成对资源库的增量更新,提高获取到的资源的质量。经测试,研究的系统初步满足资源库建设的自动化需求,能够获取有效的教学资源。
ISSN号:2095-3437
是否译文:否
发表时间:2019-09-01
通讯作者:郑洪源

 

版权所有©2018- 南京航空航天大学·信息化处(信息化技术中心)