版权说明 操作指南
首页 > 成果 > 详情

基于混合条件模型的Web信息抽取

认领
导出
下载 Link by 中国知网学术期刊 Link by 维普学术期刊 Link by 万方学术期刊
反馈
分享
QQ微信 微博
成果类型:
期刊论文
论文标题(英文):
Web Information Extraction Based on Hybrid Conditional Model
作者:
肖基毅;朱道辉;邹腊梅
作者机构:
南华大学计算机科学与技术学院,湖南,衡阳,421001
[肖基毅; 邹腊梅; 朱道辉] 南华大学
语种:
中文
关键词:
Web信息抽取;最大熵马尔可夫模型;条件模型;最大熵;隐马尔可夫模型
关键词(英文):
Web information extraction;maximum entropy Markov model;conditional model;maximum entropy;hidden Markov model
期刊:
郑州大学学报(理学版)
ISSN:
1671-6841
年:
2008
卷:
40
期:
3
页码:
52-55
基金类别:
湖南省自然科学基金资助项目,编号04JJ40051; 湖南省教育厅科研项目,编号06c724;
机构署名:
本校为第一机构
院系归属:
计算机科学与技术学院
摘要:
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数,提出了一种最大熵和最大熵马尔可夫模型相结合的条件模型.该方法对输入的Web页面进行解析并构建HTML树,通过计算HTML子树结点的熵定位数据域,允许观察值表示任意重叠特征(像词、大写、HTML标记、语义)和定义状态序列给予观察序列的条件概率实现了Web信息抽取.实验结果表明,新的方法在精确度和召回率指标上比传统隐马尔可夫模型和最大熵马尔可夫模型具有更好的性能.
摘要(英文):
The traditional HMM for Web information extraction is sensitive to the initial model parameters and easy to lead to a sub-optimal model in practice. A hybrid conditional model to combine maximum entropy and maximum entropy Markov model is put formard for Web information extraction. With this approach, the input Web page is parsed to build an HTML tree, data regions are located in each HTML subtree node by estimating the entropy, which allows observa- tions to be represented as arbitrary overlapping features(such as vocabulary, capitalization, ...

反馈

验证码:
看不清楚,换一个
确定
取消

成果认领

标题:
用户 作者 通讯作者
请选择
请选择
确定
取消

提示

该栏目需要登录且有访问权限才可以访问

如果您有访问权限,请直接 登录访问

如果您没有访问权限,请联系管理员申请开通

管理员联系邮箱:yun@hnwdkj.com