首页IT科技python提取字段(python如何提取文本信息?)

python提取字段(python如何提取文本信息?)

时间2025-09-17 02:51:50分类IT科技浏览6449
导读:1、信息提取...

1                 、信息提取

先用句子分段器将文档的原始文本分成句子                ,再用记号赋值器将每个句子进一步分成单词                。其次                         ,给每一个句子做词性标记                         。以nltk中的默认工具为例         ,将句子分段器                         、分词器        、词性标记器连接         。

defie_preprocess(document): #nltk默认的句子分段器 sentences=nltk.sent_tokenize(document) #nltk默认分词器 sentences=[nltk.word_tokenize(sent)forsentinsentences] #nltk默认词性标记 sentences=[nltk.pos_tag(sent)forsentinsentences]

2                 、词块划分

词块划分是实体识别的基础技术        ,对多个词的顺序进行划分和标记        。

如Noun Phrase Chunking(名词短语词块划分)

使用正则表达式来定义一个语法                         ,来进行名词短语词块的划分

3                         、开发和评估词块划分器

分区器可以用evaluate()方法评价分区器的性能好坏                         。

以下是使用一元标记来建立单词块分割器的学习                 。但是                 ,不是确定每个单词的正确单词性标记        ,而是根据每个单词的单词性标记                         ,确定正确的单词块标记        。

#使用一元标注器建立一个词块划分器                         。根据每个词的词性标记                 ,尝试确定正确的词块标记                 。 classUnigramChunker(nltk.ChunkParserI): #constructor def__init__(self,train_sents): #将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word,tag                         ,chunk)的列表 train_data=[[(t,c)forw,t,cinnltk.chunk.tree2conlltags(sent)] forsentintrain_sents] #训练一元分块器 #self.tagger=nltk.UnigramTagger(train_data) #训练二元分块器 self.tagger=nltk.BigramTagger(train_data) #sentence为一个已标注的句子 defparse(self,sentence): #提取词性标记 pos_tags=[posfor(word,pos)insentence] #使用标注器为词性标记标注IOB词块 tagged_pos_tags=self.tagger.tag(pos_tags) #提取词块标记 chunktags=[chunktagfor(pos,chunktag)intagged_pos_tags] #将词块标记与原句组合 conlltags=[(word,pos,chunktag)for((word,pos),chunktag) inzip(sentence,chunktags)] #转换成词块树 returnnltk.chunk.conlltags2tree(conlltags)

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
藁城区政府官网(藁城区政务网) 微信小程序/公众号/网站搭建/app开发/软件定制(微信小程序 – 完美解决 web-view 公众号文章或第三方网站分享转发后,打开提示 “无法打开该页面,不支持打开” 或 “页面不存在”(IOS 苹果系统打开是空白页,安卓系统会有提示)超详细排查)