自然语言处理 Paddle NLP - 信息抽取技术及应用

2023-06-20 08:54 由 VipSoft 发表于 #其他

1.什么是信息抽取

即自动从无结构或半结构的文本中抽取出结构化信息的任务(病历抽取)

2.实体抽取
3.关系抽取
4.事件抽取

信息抽取和知识图谱是一个上下游的关系。抽取的结果，可以组装成知识图谱（一种存储知识的结构）

医疗、金融、法律，三大行业用得比较多

从问诊中抽取信息

贷款审核，大量的纸质、DPF文件，需要将里面的信息进行匹配审核

根据抽取结果在不在原文中对信息抽取分类
这次我们只关注抽取式，不在原文中的情况需要参考生成方法

抽取式：结果在原文中
生成式：结果不在原文中，如果生成的结果需要一个知识做为辅助，就需要知识图谱，很多时候不需要知识图谱

抽取式分类

实体抽取
关系抽取
事件抽取

信息抽取的通用评测指标，所有的信息抽取都可以用它评
Precision：抽取出来的结果，抽出来10个，5个对的，就是 50%
Recall：关注模型漏了哪些东西，指标0~1，数值越高，模型越好
F1：Precision和Recall的综合平均，是两个的综合反映

抽取模型的关键要素：解码设计

实体抽取

从一段文本中抽取出文本内容，并识别为预定义的类别

一般是 BIO 解码方式 + CRF 模型结构

复杂的实体抽取，无法用 BIO 直接解决（用到关系抽取）
复杂实体抽取中的问题1：重叠嵌套

复杂实体抽取中的问题2：不连续

关系抽取

从文本中抽取出一对实体和预定义的关系类型，得到包含语义信息的实体关系三元组关系是有方向的，抽取的两个实体一般称作头实体（HeadEntity）和尾实体（TailEntity）

关系分类是关系抽取的第二步

解码设计
训练集需要人工标注或其它标注
简单关系抽取

复杂关系抽取，将 CRF 升级成 Sigmoid，判断大于 0.5 是一个类别，小于则不是

实体对组合

效果最好的模型，可以预测很多个类别

SPO 主谓宾

事件抽取

从一段文本中抽取出预定义的事件触发词和事件要素，组合为相应的结构化信息除了事件，实际应用中信息抽取的结果可能更加复杂，但都可以拆成关系抽取

【技术积累】自然语言处理中的基础知识【二】

博客推行版本更新，成果积累制度，已经写过的博客还会再次更新，不断地琢磨，高质量高数量都是要追求的，工匠精神是学习必不可少的精神。因此，大家有何建议欢迎在评论区踊跃发言，你们的支持是我最大的动力，你们敢投，我就敢肝 ...阅读全文

编译程序的任务

编译程序是一种翻译程序，编译程序是将一种语言形式翻译成另一种语言形式。它将高级语言所写的源程序翻译成等价的机器语言或汇编语言的目标程序。整个编译过程一般可以划分为 5 个阶段：词法分析、语法分析、语义分析及中间代码生成、中间代码优化和目标代码生成。 ...阅读全文

冒泡排序

# 1. 冒泡排序 - 遍历数组，**每一次循环，两两比较，大的放后面** - 每次 outerloop 遍历就会让当前没有 sorted 部分找出一个最大元素放到正确的位置上 (被换到那) > 严格的 `O(N^2)` 时间复杂度，两个两个元素进行比较 > > 它的基本思想是**反复地交换相邻的未 ...阅读全文

好用网址分享-77ai导航与77搜索导航

AI（人工智能）技术正在改变我们的生活方式和工作方式，越来越多的人开始关注和使用AI相关的网站和应用程序。在这篇文章中，我将为大家介绍一些常用的AI网址导航，帮助您更好地了解和使用AI技术。 **AI Hub** AI Hub是由Google Cloud推出的一个开放平台，旨在帮助企业和开发者快速构 ...阅读全文

Liunx nginx服务

目录一、nginx概念二、nginx特点三、nginx应用场景四、nginx和apache 五、阻塞和非阻塞六、同步和异步七、编译安装nginx 八、升级nginx 九、总结一、nginx概念 1.nginx概念 Nginx ("engine x") 是一个高性能的 HTTP 和反向代 ...阅读全文

【解决方法】锐捷 EVE 模拟器关联 Wireshark 进行抓包

# 环境： >工具：锐捷 EVE 模拟器，VMware Workstation Pro 抓包工具：Wireshark 系统版本：Windows 10 # 问题描述： >描述：使用锐捷 EVE 模拟器抓包，点击后无反应，网上的方法要么乱写，乱抄，要么不够仔细。故自己写一遍。 >提示：若按照教程还是无法 ...阅读全文

【工程应用八】终极的基于形状匹配方案解决（小模型+预生成模型+无效边缘去除+多尺度+各项异性+最小组件尺寸）

我估摸着这个应该是关于形状匹配或者模版匹配的最后一篇文章了（同时纸质旋转和缩放），其实大概是2个多月前这些东西都已经弄完了，只是一直静不下来心整理文章，提醒一点，这篇文章后续可能会有多次修改（但不会重新发文章，而是在后台直接修改或者增加），所以有需要的朋友可以随时重复查看。 ...阅读全文

云原生周刊：Dapr v1.11 发布

## 开源项目推荐 ### [Kamaji](https://github.com/clastix/kamaji) Kamaji 可以大规模地部署和运行 Kubernetes 控制平面，而只需承担一小部分操作负担。Kamaji 的特别之处在于，控制平面组件是在一个单一的 pod 中运行，而不是在专用 ...阅读全文

【解决办法】DHCP Relay环境中PC无法获取IP地址，排错与解法

# 环境： >工具：锐捷EVE模拟器，VMware Workstation Pro 远程工具：SecureCRT 系统版本：Windows 10 # 问题描述： >描述：在 DHCP Relay 环境中，中继和服务器能正常互通，但是通过抓包发现，PC 客户端发送的报文并没有被正常的转发给 DHCP ...阅读全文

CVE-2023-33246命令执行复现分析

RocketMQ是一款低延迟、高并发、高可用、高可靠的分布式消息中间件。既可为分布式应用系统提供异步解耦和削峰填谷的能力，同时也具备互联网应用所需的海量消息堆积、高吞吐、可靠重试等特性。 ...阅读全文