首页IT科技序列标注算法(序列标注的BIO标注体系)

序列标注算法(序列标注的BIO标注体系)

时间2025-06-20 00:55:56分类IT科技浏览6126
导读:1、什么是序列标注 输入和输出都是序列 输入和输出序列是一一对应的 是一种结构化的分类,分类问题的一种推广 输出序列用的是BIO标注体系...

1             、什么是序列标注

输入和输出都是序列 输入和输出序列是一一对应的 是一种结构化的分类            ,分类问题的一种推广 输出序列用的是BIO标注体系

序列标注是NLP中最基础的任务                   ,应用十分广泛       ,如分词                   、词性标注      、命名实体识别         、关键词抽取                   、语义角色标注         、槽位抽取等实质上都属于序列标注的范畴

2      、标注体系

BIO 三位标注(B-begin         , I-inside                  ,O-outside)

B-X表示实体X的开头

I-X表示实体的结尾

O表示不属于任何类型 输入序列 世 达 / S A T A 9 1 5 1 1 数 显 式 游 标 卡 尺 输出序列 B-brand I-brand O B-brand I-brand I-brand I-brand O O O O O O O O B-product I-product I-product I-product BIOES (B-begin          , I-inside      ,O-outside                  ,E-end             ,S-single)

B表示实体开头

I表示实体内部

O表示非实体

E表示实体结尾

S表示单个字符   ,其本身就是一个实体 输入序列 世 达 / S A T A 9 1 5 1 1 数 显 式 游 标 卡 尺 输出序列 B-brand E-brand O B-brand I-brand I-brand E-brand O O O O O O O O B-product I-product I-product E-product BMES 四位序列标注法 (B-begin                  ,M-middle                ,E-end,S-single)

B表示实体开头

M表示实体中间

E表示实体结尾

S表示单个字符               ,其本身就是一个实体 输入序列 世 达 / S A T A 9 1 5 1 1 数 显 式 游 标 卡 尺 输出序列 B E S B M M E S S S S S S S S B M M E

3                   、常见的序列标注任务

中文分词 词性标注 命名实体识别

3.1 中文分词

分词基本上是所有自然语言处理任务的基础                   ,目的是让文本的内容变成一个个的单词或词组   ,便于转换为词向量             。

中文分词与英文分词的不同:

中文不像英文那样有空格作为词语的界限标志            ,而且“词            ”在中文里本来就是一个很模糊的概念                   ,中文也不具备英文中的字母大小写等形态指示 中文的用字灵活多变       ,有些词语在脱离上下文语境的情况下无法判断是否是命名实体         ,而且就算是命名实体                  ,当其处在不同的上下文语境下也可能是不同的实体类型 命名实体存在大量的嵌套现象          ,如“北京大学第三医院                   ”这一组织机构名中还嵌套着同样可以作为组织机构名的“北京大学       ”      ,这种现象在组织机构名中尤其严重 中文里广泛存在简化表达现象                  ,如         ”北医三院                  ”            、          ”国科大      ”             ,乃至简化表达构成的命名实体   ,如“国科大桥‘

3.2 词性标注

对已经分词完成的句子                  ,将句子中的所有词标记词性                   。这里的“词                  ”对应的就是已分词的词序列中的词                ,节点的标签空间为词性标记空间如{名词,动词,形容词,… .}       。每个词最终都会打上词性标签

词性标注的难点:

相对于英文,中文缺少词语形态变化               ,不能从词的形态来识别词性 一词多词性很常见         。统计发现                   ,一词多词性的概率高达22.5%                   。而且越常用的词   ,多词性线性越严重            ,比如“研究             ”既可以是名字也可以是动词         。 词性划分标准不统一      。词类划分粒度和标记符号等                   ,目前还没有一个广泛认可的统一标准                   。比如LDC词性标注预料中       ,将汉语一级词性分为33类         ,而北京大学语料库则将其划分为26类            。词类划分标准和标记符号的不统一                  ,以及分词规范的含糊          ,都给词性标注带来了很大的困难   。jieba分词采用了使用较为广泛的ICTCLAS 汉语词性标注集规范                   。 未登录词问题               。和分词一样      ,未登录词的词性也是一个比较大的课题。未登录词不能通过查找字典的方式获取词性                  ,可以采用HMM隐马尔科夫模型等基于统计的算法## 命名实体识别

3.3 命名实体识别

NER又称作专名识别             ,是自然语言处理中的一项基础任务   ,应用范围非常广泛                。命名实体一般指的是文本中具有特定意义或者指代性强的实体                  ,通常包括人名   、地名                   、组织机构名               、日期时间、专有名词等                  。

NER系统就是从非结构化的输入文本中抽取出上述实体                ,并且可以按照业务需求识别出更多类别的实体,比如产品名称                、型号                  、价格等   。因此实体这个概念可以很广               ,只要是业务需要的特殊文本片段都可以称为实体             。

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
外链分析工具的使用方法与优化策略(如何查看网站的外链并提升SEO优化效果) 火车头采集器是干嘛的啊(火车头采集器内容排版)