基于Lucene+Java+Python实现的校园搜索引擎系统课程论文+项目源码

设计任务书文档开题答辩说明书格式模板外文翻译范文资料作品文献课程实习指导调研下载网络教育 计算机 网站网页 小程序 商城购物订餐电影安卓 Android Html Html5 SSM SSH Python 爬虫大数据 管理系统 图书校园网考试选题网络安全推荐系统机械模具夹具自动化数控车床汽车故障诊断电机建模 机械手 去壳机千斤顶变速器减速器图纸电气变电站电子 Stm32 单片机 物联网 监控密码锁 Plc 组态控制智能 Matlab 土木建筑结构框架教学楼住宅楼造价施工办公楼给水排水桥梁刚构桥水利重力坝水库采矿环境化工固废工厂 视觉传达 室内设计产品设计 电子商务 物流盈利案例分析评估报告营销报销会计

今天是：

|>>> 您现在的位置：首页>>>>文档详细内容

基于Lucene+Java+Python实现的校园搜索引擎系统课程论文+项目源码

校园搜索引擎实验报告目录实验环境 1实验内容 1实现过程 2抓取校园网资源并处理 2分词处理 3词表建立 4结果排序 4查询提示 5查询纠错 5关键词高亮 5语音输入 5快速预览 5相关推荐 5使用说明 7主页 7查询推荐 7查询提示 8查询结果纠错 9页面预览 9性能评价 9概述 9查询样例 10构建相关性标注集合 10性能分析 11总结 11实验环境apache-tomcat-7.0.86 paoding-analysis-2.0.4-beta IDEA ULTIMATEwin10实验内容综合运用搜索引擎体系结构和核心算法方面的知识，基于开源资源搭建搜索引擎，具体包括如下几点：1.抓取清华校园网内绝大部分资源，并且进行预处理；2.基于Lucene实现校园搜索引擎――太强搜索；3.加入关键词纠错、查询提示、语音搜索、相关推荐功能，以提高太强搜索的体验；4.美化Web界面，实现关键词高亮、快速预览等功能；5.完成对于太强搜索的性能评价。实现过程抓取校园网资源并处理使用 Heritrix 抓取工具，抓取 HTML，PDF，M.S.Word 格式的文件28万份，共计31GB。编写 Python 脚本处理抓取到的数据，解析成 json 文件: 首先遍历所有抓取到的文件，为每一个文件分配一个 ID，文件与 ID 一一对应，ID 用于之后PageRank的计算。获取文件的标题、文本 (docContent)、标签(h1~h6)、加粗(strong)信息等。使用BeatifulSoup 库解析 HTML 文件内容，获取其中的超链接，为抓取到的整个数据包构建图结构，根据图结构计算网页的 PageRank，使用pdfminer库解析pdf文件，使用docx2txt库解析word文件。我们发现实际抓到的html文件给出的charset有时是错误的，因此使用了chardet自动判断网页的编码，这样我们便可以处理几乎所有的编码。

| 关于我们 | 友情链接 | 毕业设计招聘 |

本站毕业设计和毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!

基于Lucene+Java+Python实现的校园搜索引擎系统 课程论文+项目源码

基于Lucene+Java+Python实现的校园搜索引擎系统课程论文+项目源码