版权说明 操作指南
首页 > 成果 > 详情

基于长距离依赖条件随机域的文本信息抽取

认领
导出
Link by 中国知网学术期刊 Link by 万方学术期刊
反馈
分享
QQ微信 微博
成果类型:
期刊论文
作者:
朱道辉;肖基毅;程阳;吴诗祥
作者机构:
[朱道辉; 肖基毅] 南华大学计算机科学与技术学院
[程阳] 广西师范大学生命科学学院
[吴诗祥] 武冈市大田乡中心小学
语种:
中文
关键词:
长距离依赖;条件随机域;线性链;同一token;文本
期刊:
计算机应用与软件
ISSN:
1000-386X
年:
2011
卷:
28
期:
5
页码:
203-205
机构署名:
本校为第一机构
院系归属:
计算机科学与技术学院
摘要:
信息抽取中, 同一token在文本中可能出现多次, 且token多次出现的位置通常相隔很远, 传统线性链CRF模型由于Markov假设不能表达长距离依赖关系于是将多次出现的同一token分开标注, 丧失了全局信息。提出了长距离依赖条件随机域模型, 该模型能结合多次出现的同一token各处的特征, 对其进行联合标注。由于长距离依赖使得精确的标注算法不可计算, 采用了TRP估计算法。实验表明该模型抽取性能优于线性链CRF模型, 尤其是speaker域上的召回率有了很大的提高。
摘要(英文):
In information extraction,a token may occur multiple times in a document and usually there is long distance among multiple occurrences of a same token.Traditional linear-chain CRFs' models annotate the multiple occurrences of the same token separately at the cost of losing global information because it cannot represent long-distance dependent relations among labels under the Markov assumption.We present a CRF model with long-distance dependencies.This model can collectively annotate a token for all of its occurrences by combining its features ...

反馈

验证码:
看不清楚,换一个
确定
取消

成果认领

标题:
用户 作者 通讯作者
请选择
请选择
确定
取消

提示

该栏目需要登录且有访问权限才可以访问

如果您有访问权限,请直接 登录访问

如果您没有访问权限,请联系管理员申请开通

管理员联系邮箱:yun@hnwdkj.com