基于混合条件模型的Web信息抽取
作者:
肖基毅;朱道辉;邹腊梅
期刊:
郑州大学学报(理学版) ,2008年40(3):52-55 ISSN:1671-6841
作者机构:
南华大学计算机科学与技术学院,湖南,衡阳,421001;[肖基毅; 邹腊梅; 朱道辉] 南华大学
关键词:
Web信息抽取;最大熵马尔可夫模型;条件模型;最大熵;隐马尔可夫模型
摘要:
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数,提出了一种最大熵和最大熵马尔可夫模型相结合的条件模型.该方法对输入的Web页面进行解析并构建HTML树,通过计算HTML子树结点的熵定位数据域,允许观察值表示任意重叠特征(像词、大写、HTML标记、语义)和定义状态序列给予观察序列的条件概率实现了Web信息抽取.实验结果表明,新的方法在精确度和召回率指标上比传统隐马尔可夫模型和最大熵马尔可夫模型具有更好的性能.
语种:
中文
展开
基于数据仓库的钢铁销售统计分析系统
作者:
邓才应;肖基毅;陈星
期刊:
电脑知识与技术 ,2008年4(28):1-3,10 ISSN:1009-3044
作者机构:
南华大学,计算机科学与技术学院,湖南,衡阳,421001;[陈星; 肖基毅; 邓才应] 南华大学
关键词:
数据仓库;联机分析处理;多维表达式;钢铁销售;统计系统
摘要:
分析了数据仓库的特点,并根据钢铁销售统计系统的业务需求给出了其系统结构和数据仓库模型,以交货单为中心,前续包括合同和订单,后续包括结算,以及收发存和库存帐龄,最后指出了其关键技术及实现方法,为管理层在销售决策上提供有力支持.
语种:
中文
展开
Optimization of hidden Markov model by a genetic algorithm for web information extraction
作者:
Xiao, Jiyi* ;Zou, Lamei;Li, Chuanqi
期刊:
PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON INTELLIGENT SYSTEMS AND KNOWLEDGE ENGINEERING (ISKE 2007) ,2007年 ISSN:1951-6851
通讯作者:
Xiao, Jiyi
作者机构:
[Li, Chuanqi; Xiao, Jiyi; Zou, Lamei] Univ S China, Sch Comp Sci & Technol, Hengyang 421001, Peoples R China.
通讯机构:
[Xiao, Jiyi] U;Univ S China, Sch Comp Sci & Technol, Hengyang 421001, Peoples R China.
关键词:
hidden Markov model;genetic algorithm;Baum-Welch algorithm;Viterbi algorithm;information extraction
摘要:
This paper demonstrates a new training method based on GA and Baum-Welch algorithms to obtain an HMM model with optimized number of states in the HMM models and its model parameters for web information extraction. This method is not only able to overcome the shortcomings of the slow convergence speed of the HMM approach. In addition, this method also finds better number of states in the HMM topology as well as its model parameters. From the experiments with the 2100 webs extracted from our corpus, this method is able to find the optimal topology in all cases. The experiments are found that the GA-HMM approach has an average precision rate of 84.483% while the HMM trained by the Baum-Welch method has an average precision rate of 71.049%. This implies that the GA-HMM method is more optimized than the HMM trained by the Baum-Welch method.
语种:
英文
展开
基于Maximum Likelihood与HMM的文本挖掘
作者:
邹腊梅;肖基毅;龚向坚
期刊:
计算机技术与发展 ,2007年17(12):110-112 ISSN:1673-629X
作者机构:
南华大学,计算机科学与技术学院,湖南,衡阳,421001
关键词:
隐马尔可夫模型;最大似然;文本挖掘;信息抽取
摘要:
随着信息技术、数据库技术、网络技术的发展,各行各业均存储了大量的文本数据,怎样从这些文本数据中发掘有价值的信息和知识成为人们急需解决的问题。提出基于Maximum Likelihood与HMM的文本挖掘方法,利用Maximum Likelihood构建隐马尔可夫模型,对论文条目进行特定信息的发掘,并克服了实验过程中"零概率"的缺陷。实验结果表明准确率平均达到0.9,召回率平均达到0.85,从理论和实践上证明该方法是有效的。
语种:
中文
展开
基于知识网格的分布式数据挖掘
作者:
胡蓉;肖基毅
期刊:
计算机技术与发展 ,2007年17(10):99-101,104 ISSN:1673-629X
作者机构:
南华大学,计算机科学与技术学院,湖南,衡阳,421001
关键词:
知识网格;数据挖掘;知识发现
摘要:
科学和工商业应用需要分析分布在各异构站点的海量数据。这就需要合适的分布式并行系统来存储和管理数据。网格为分布式数据挖掘和知识发现提供了有效的计算支持。文中在讨论知识网格体系结构的基础上,利用可视化网格应用环境VEGA实现了基于网格的分布式数据挖掘过程。
语种:
中文
展开
网格信息资源整合的方式
作者:
肖基毅;王以群
期刊:
中国信息导报 ,2006年(6):39-41 ISSN:1005-7919
作者机构:
南华大学计算机科学与技术学院,湖南,衡阳,421001;南华大学经济管理学院,湖南,衡阳,421001
关键词:
网格;信息资源;资源整合;整合方式;网格知识整合
摘要:
从信息资源加工、处理、共享及技术方法角度,将网格信息资源整合方式分为网格数据整合、网格信息整合和网格知识整合3种,论文分析和比较了这3种方式各自的特点,指出这3种整合形式存在于网格信息资源整合过程中,而且是逐次递进又互有交叉重合,相互不可替代的。知识整合作为网格信息资源整合的最高形态,将主导未来网格信息资源整合的发展。
语种:
中文
展开
基于PCS的校园漫游系统的设计与实现
作者:
刘征海;邱建雄;肖基毅
期刊:
计算机系统应用 ,2006年(3):13-16 ISSN:1003-3254
作者机构:
南华大学计算机科学与技术学院,湖南,衡阳,421001;[邱建雄] 长沙学院计算机科学与技术系,湖南,长沙,410073;[肖基毅; 刘征海] 南华大学
关键词:
虚拟现实;三维重建;纹理映射;校园漫游
摘要:
利用交互方式确定特征点,然后利用针孔相机模型的成像原理以及PCS方法。恢复场景的三维模型.最后利用3D视觉分层技术提取纹理,利用OpenGL的纹理映射技术,把校园场景的相片重建为具有相片般真实感的三维模型。并能够进行实时漫游。
语种:
中文
展开
虚拟漫游系统中纹理的纠正与映射
作者:
邱建雄;刘征海;肖基毅
期刊:
计算机系统应用 ,2005年0(6):22-25 ISSN:1003-3254
作者机构:
[邱建雄] 湖南大学软件学院,410082;[邱建雄] 沙大学计算机科学与技术系,410073;长沙,湖南大学软件学院,410082;湖南,衡阳,南华大学计算机学院,421003;[肖基毅] 南华大学
关键词:
虚拟漫游系统;纠正;重建技术;3D视觉;纹理图像;三维模型;映射函数;实时漫游;真实感;相片;表面
摘要:
利用3D视觉分层重建技术,把模型的表面纹理图像从相片中提取出来,并加以纠正.然后根据OpenGL的要求把纠正的纹理变换到需要的尺寸,利用OpenGL提供的映射函数把它们映射到重建的三维模型的表面上去.使之具有相片般的真实感,并能够进行实时漫游.
语种:
中文
展开
基于MATLAB下的Winsock API网络编程
作者:
陈坚祯;肖基毅
期刊:
南华大学学报(自然科学版) ,2005年19(1):51-54 ISSN:1673-0062
作者机构:
南华大学,计算机科学与技术学院,湖南,衡阳,421001;[肖基毅; 陈坚祯] 南华大学
关键词:
MEX文件;Winsock应用程序接口
摘要:
随着Matlab应用的日益广泛,它的网络应用环境十分重要.针对Matlab下网络通信问题,介绍通过使用VC++6.0编写内含Winsock API技术的Matlab外部接口MEX文件的方法来设计基于Matlab平台下的网络应用程序,实现Matlab对Internet网络的支持.
语种:
中文
展开
基于可扩展标记语言的Web复杂文档管理技术
作者:
肖基毅
期刊:
南华大学学报(自然科学版) ,2002年16(4):60-63 ISSN:1673-0062
作者机构:
南华大学,计算机科学学院,湖南,衡阳,421001;[肖基毅] 南华大学
关键词:
可扩展标记语言;复杂文档;模型;存储;查询
摘要:
当前流行的Web查询技术是基于关键词匹配的信息检索,它已不适应用户提出的解决复杂文档、结构和半结构查询的需要.文章在系统介绍了标记语言和可扩展标记语言的基础上,分析了基于可扩展标记语言的数据模型、存储、查询和查询优化方法.
语种:
中文
展开
基于Agent的协同远程教学模型
作者:
肖基毅;陈坚祯;朱常春
期刊:
计算机技术与发展 ,2002年12(2):94-96 ISSN:1673-629X
作者机构:
南华大学计算机科学系,湖南衡阳,421001
关键词:
计算机支持协同工作;远程教学;模型
摘要:
利用网络进行远程教学有很多优点.文章讨论如何把Agent和计算机支持的协同工作技术应用到远程教学中以增强教学效果.在多Agent通信语言KQML的基础上,提出了基于Agent的协同远程教学模型,并阐述了在此模型下协同远程教学的工作过程.
语种:
中文
展开