首页IT科技序列标注算法(序列标注的BIO标注体系)

序列标注算法(序列标注的BIO标注体系)

时间2025-09-18 01:47:08分类IT科技浏览8625
导读:1、什么是序列标注 输入和输出都是序列 输入和输出序列是一一对应的 是一种结构化的分类,分类问题的一种推广 输出序列用的是BIO标注体系...

1                  、什么是序列标注

输入和输出都是序列 输入和输出序列是一一对应的 是一种结构化的分类                ,分类问题的一种推广 输出序列用的是BIO标注体系

序列标注是NLP中最基础的任务                          ,应用十分广泛         ,如分词                         、词性标注        、命名实体识别             、关键词抽取                          、语义角色标注            、槽位抽取等实质上都属于序列标注的范畴

2        、标注体系

BIO 三位标注(B-begin            , I-inside                         ,O-outside)

B-X表示实体X的开头

I-X表示实体的结尾

O表示不属于任何类型 输入序列 世 达 / S A T A 9 1 5 1 1 数 显 式 游 标 卡 尺 输出序列 B-brand I-brand O B-brand I-brand I-brand I-brand O O O O O O O O B-product I-product I-product I-product BIOES (B-begin              , I-inside        ,O-outside                        ,E-end                  ,S-single)

B表示实体开头

I表示实体内部

O表示非实体

E表示实体结尾

S表示单个字符    ,其本身就是一个实体 输入序列 世 达 / S A T A 9 1 5 1 1 数 显 式 游 标 卡 尺 输出序列 B-brand E-brand O B-brand I-brand I-brand E-brand O O O O O O O O B-product I-product I-product E-product BMES 四位序列标注法 (B-begin                        ,M-middle                      ,E-end,S-single)

B表示实体开头

M表示实体中间

E表示实体结尾

S表示单个字符                    ,其本身就是一个实体 输入序列 世 达 / S A T A 9 1 5 1 1 数 显 式 游 标 卡 尺 输出序列 B E S B M M E S S S S S S S S B M M E

3                          、常见的序列标注任务

中文分词 词性标注 命名实体识别

3.1 中文分词

分词基本上是所有自然语言处理任务的基础                          ,目的是让文本的内容变成一个个的单词或词组    ,便于转换为词向量                  。

中文分词与英文分词的不同:

中文不像英文那样有空格作为词语的界限标志                ,而且“词                ”在中文里本来就是一个很模糊的概念                          ,中文也不具备英文中的字母大小写等形态指示 中文的用字灵活多变         ,有些词语在脱离上下文语境的情况下无法判断是否是命名实体            ,而且就算是命名实体                         ,当其处在不同的上下文语境下也可能是不同的实体类型 命名实体存在大量的嵌套现象              ,如“北京大学第三医院                          ”这一组织机构名中还嵌套着同样可以作为组织机构名的“北京大学         ”        ,这种现象在组织机构名中尤其严重 中文里广泛存在简化表达现象                        ,如            ”北医三院                         ”                、              ”国科大        ”                  ,乃至简化表达构成的命名实体    ,如“国科大桥‘

3.2 词性标注

对已经分词完成的句子                        ,将句子中的所有词标记词性                         。这里的“词                        ”对应的就是已分词的词序列中的词                      ,节点的标签空间为词性标记空间如{名词,动词,形容词,… .}         。每个词最终都会打上词性标签

词性标注的难点:

相对于英文,中文缺少词语形态变化                    ,不能从词的形态来识别词性 一词多词性很常见             。统计发现                          ,一词多词性的概率高达22.5%                          。而且越常用的词    ,多词性线性越严重                ,比如“研究                  ”既可以是名字也可以是动词            。 词性划分标准不统一        。词类划分粒度和标记符号等                          ,目前还没有一个广泛认可的统一标准                          。比如LDC词性标注预料中         ,将汉语一级词性分为33类            ,而北京大学语料库则将其划分为26类                。词类划分标准和标记符号的不统一                         ,以及分词规范的含糊              ,都给词性标注带来了很大的困难    。jieba分词采用了使用较为广泛的ICTCLAS 汉语词性标注集规范                          。 未登录词问题                    。和分词一样        ,未登录词的词性也是一个比较大的课题。未登录词不能通过查找字典的方式获取词性                        ,可以采用HMM隐马尔科夫模型等基于统计的算法## 命名实体识别

3.3 命名实体识别

NER又称作专名识别                  ,是自然语言处理中的一项基础任务    ,应用范围非常广泛                      。命名实体一般指的是文本中具有特定意义或者指代性强的实体                        ,通常包括人名    、地名                          、组织机构名                    、日期时间、专有名词等                        。

NER系统就是从非结构化的输入文本中抽取出上述实体                      ,并且可以按照业务需求识别出更多类别的实体,比如产品名称                      、型号                        、价格等    。因此实体这个概念可以很广                    ,只要是业务需要的特殊文本片段都可以称为实体                  。

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
windows11字体更改(windows 11系统字体大小怎么调节? win11设置字体大小的技巧) 自动驾驶仿真测试平台下载(介绍一款开源的自动驾驶仿真模拟器-Carla)