版权说明 操作指南
首页 > 成果 > 详情

一种基于大数据应用的短文本信息检索系统

认领
导出
Link by 万方专利
反馈
分享
QQ微信 微博
成果类型:
专利
发明/设计人:
万亚平;阳小华;张娟;刘立;谭邦;...
申请/专利权人:
南华大学
专利类型:
发明专利
语种:
中文
申请时间:
2016-12-28
申请/专利号:
CN201611239300.0
公开时间:
2017-5-17
公开号:
CN106682174A
主申请人地址:
410000 湖南省衡阳市蒸湘区常胜西路28号
申请地区:
湖南
代理人:
郭伟红
专利代理机构:
北京国坤专利代理事务所(普通合伙) 11491
机构署名:
本校为第一完成单位
主权项:
一种基于大数据应用的短文本信息检索系统,其特征在于:包括分类采集系统和短文本预处理模块,所述分类采集系统的输出端信号连接词段预处理模块的输入端,词段预处理模块输出的词段依次经过词段拆分模块和词段分集模块处理后,分别放入到拆分词关联集合中,词段拆分模块上设置词频统计模块,将拆分词关联集合的数据传输到共享数据库中,并将拆分词关联集合的数据生成镜像保存到储存数据库中,所述短文本预处理模块的信号输出端连接短文本拆分、组合模块的输入端,短文本拆分、组合模块的输出端与文本传输模块的输入端连接,文本传输模块的输出端信号连接在对比检索模块的一个输入端上,对比检索模块的另一个输入端与共享数据库的信号输出端连接,且对比检索模块的输出端信号连接文本收集模块,所述文本收集模块的输出端按照词频的大小排列输出到文本排列模块,文本排列模块的输出端通过信号连接在词段逆推模块的输入端并输出。
摘要:
本发明涉及信息检索领域,具体为一种基于大数据应用的短文本信息检索系统,包括分类采集系统和短文本预处理模块,所述分类采集系统的输出端信号连接词段预处理模块的输入端,词段预处理模块输出的词段依次经过词段拆分模块和词段分集模块处理后,将拆分词关联集合的数据传输到共享数据库中,本发明功能涉及合理,在大数据的数据基础上,对检索词段进行统计和处理,在进行短文本信息检索时,将短文本合理拆分和组合,经过词段逆推得出词频,由词频的大小进行信息输出,很大程度上简化了检索系统的负担,并且实现了快速的对比,在大数据的实时更新状态下,能够提高信息检索的时效性,并且避免了数据的检索遗漏。

反馈

验证码:
看不清楚,换一个
确定
取消

成果认领

标题:
用户 作者 通讯作者
请选择
请选择
确定
取消

提示

该栏目需要登录且有访问权限才可以访问

如果您有访问权限,请直接 登录访问

如果您没有访问权限,请联系管理员申请开通

管理员联系邮箱:yun@hnwdkj.com