2007-04-13

一个搜索引擎开发者论坛

关键字: 搜索引擎开发 源代码研究
临近毕业,而毕设正是搜索引擎相关课题: web搜索结果聚类, 以前也研究过搜索引擎,而且很感兴趣,所以趁着这个东风,建立了一个搜索引擎开发者交流社区,根据自己的一些经验,把论坛分成了几个板块, 基础学习区,开源代码研究,开发与应用等相关模块,希望对搜索引擎感兴趣的同仁来社区一起探讨,研究,学习,进步,特别欢迎有搜索引擎开发经验的前辈来共同维护好这个社区,感谢大家的支持! 社区网址是: http://www.zhuayu.net
今天研究Carrot2源代码,查看其的整个数据流程,发现他把很多变动的东西用组件的形式来实现,而通过脚本来跟应用程序建立纽带。这个脚本就是BeanShell,发现还挺好用,转载一片不错的文章。   BeanShell快速入门---Java应用程序脚本引擎 http://www.daima.com.c ...
中文搜索引擎技术揭密:中文分词 http://FullSearch.Com 中文全文检索网 2005-1-13 8:35:56 winter 关键词:中文搜索引擎技术揭密     信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话 ...
2007-03-27

毕业设计6---web网页自动分类(开题报告)3.27

关键字: 聚类 开题 j2ee 框架 流程
(本科)毕业设计(论文)的目标:   目标: 对Web搜索引擎返回的页面进行自动的分类。 要点: 1. Web搜索引擎返回的页面是动态的,其文档类别是未知的、不固定的。 2. 根据页面内容自身的差异,使用文档聚类的方法对页面进行自动归类。 3. 分类显示搜索结果。 4. 满足中文查询需求。 ...
2007-03-24

毕业设计5---web网页自动分类(carrot2初步研究)

关键字: 自动分类 聚类 carrot2 vsm stc
最好的搜索引擎开发交流社区 http://www.zhuayu.net       也可以加入qq群:  38707929 找不到数据挖掘的版块, 而这个课题的建立是基于STUCTS的,所以发在这里也未尝不可^_^.         好久没写blog了,由于之前对毕业设计的要求理解错误,导致研究方向发生了偏移. 在3月7号的时候导师开了一个会才知道要做的系统是一个聚类系统, 之前研究的使用训练集产生分类器的方法是针对"自动归类& ...
2007-03-03

毕业设计4---爬虫的研究

关键字: 毕设 爬虫模块
   昨天研究的NUTCH, 是个完整的项目,虽然功能很强, 但据说自定义性并不是很出色(自己还没有时间去时间一下), 所以现在有必要研究一下单纯的Crawl, 这里有JSPIDER(java), LARBIN(c++, 好像一定要在LINUX环境下,不知道有没有WINDOWS版的), websphinx(java)。(另外carrot2 聚类搜索也挺有意思,LARBIN的相关资料http://www.matrix.org.cn/thread.shtml?topicId=22644&forumId=32)。    根据毕业设计的题目要求: - ...
2007-03-02

毕业设计3---Nutch的使用

关键字: Nutch 毕业设计 搜索引擎 爬虫
        今天研究了Nutch, 差不多已经好几个小时了, 到现在还没有搞定,也这么晚了, 先记录下来,明天继续吧。        一开始很多时间都浪费在了cygwin的安装上了,bs这个软件的开发者了, 一个不伦不类的软件安装程序,安装的时候还要从网上下载东东。。。。。不过最后终于装成功了, 先下载到本地后,再安装的(建议 下载站点中选 TW的比较块)。    下面是我安装CYGWIN和NUTCH的过程, 都块成功了, 但最后卡在了用 ...
2007-02-27

毕业设计(查全率[召回率]与精度[查准率])----2

关键字: 毕业设计 网页自动分类系统
[web网页自动分类系统 java c++] 一直搞不清搜索引擎的查全率和查准率是什么意思,只知道这两个是衡量一个搜索引擎性能的. 今个 看一篇 南大的学士论文的时候, 又碰到这个问题. 所以决定把他搞清楚, 上百度搜了一下, 所获很多.   查全率[召回率]与精度[查准率] 之辨析: 召回率(recall rate)和精度(precision)定义: 从一个大规模数据集合中检索文档的时,可把文档分成四组    -系统检索到的相关文档(A) - 系统检索到的不相关文档(B) - 相关但是系统没有检索到的文档(C) -&nbs ...
2007-02-26

毕业设计(Web网页自动分类系统)----开篇(1)

关键字: 毕业设计 每日记录
2007 2.26日 周一   确定论题  继续看<<搜索引擎--原理,技术与系统>>的网页预处理. 学校的安排让人气愤. 老早赶来上课,但是根本不知道自己到底做哪个论问题目. 管他呢,先准备自己选的再说. 第一帖嘛, 希望本学期能做出个像样的软件了,呵呵
fullfocus
搜索本博客
最近加入圈子
存档
最新评论