WAIC2024:甲骨文多模态数据集宣布开源 AI技术接入可研发多种智能算法

2024-07-05 17:05 由环球网发表于 #科技

【环球网科技报道记者李文瑶】7月5日，在世界人工智能大会上，“数字甲骨共创中心”宣布将全球最大的甲骨文多模态数据集正式开源。该数据集包含一万片甲骨的拓片、摹本，以及甲骨单字对应位置、对应字头、对应隶定字以及辞例分组、释读顺序等数据。基于该数据集，研究人员可开发甲骨文检测、识别、摹本生成、字形匹配以及释读等方向的智能算法，助推甲骨文研究加速数字化和智能化。

据介绍，数字甲骨共创中心由安阳师范学院甲骨文信息处理教育部实验室、腾讯SSV数字文化实验室、腾讯优图实验室、中国社会科学院甲骨学殷商史研究中心、中国社会科学院考古研究所安阳工作站、厦门大学多媒体可信感知与高效计算教育部重点实验室、郑州大学汉字文明研究中心等单位共同发起建立，吸纳了来自中国社会科学院古代史研究所、英国剑桥大学、法国高等研究实践学院、日本立命馆大学、美国罗格斯大学、加州大学洛杉矶分校等高校和研究机构的专业科研力量支持。

据了解，目前甲骨文研究存在众多难点。甲骨自然损坏速度较快，保存、展示、利用不易，且出土甲骨都分散收藏于国内外。同时，甲骨文研究专业门槛高，近7成已发现甲骨文还尚未释读，也急需提升考释效率。近年来，随着AI技术的快速发展，探索AI与甲骨文研究相结合，成为了研究人员的解题思路。

高质量的AI算法则非常依赖高质量的甲骨文数据集。过往，业界的甲骨文数据集存在信息简陋、标注信息较简单以及单一数据集字数较少等问题，比如检测数据集，只能把字抠出来，不知道字是什么；字符识别数据集，只能认几百个字；因为专业知识缺乏，有些标注信息不完善等。这些也成为了甲骨文智能算法开发的一大掣肘。

此次开源的甲骨文多模态数据集集合了甲骨文数字化研究的最新成果。

一方面，该数据集吸收了当前业界最先进的甲骨文研究资料，包括剑桥大学博士秦培超发布的镜元甲骨文字库，该字库考虑了人工智能标注需求的字库进行了细粒度的异体字标识；以及清华大学黄天树教授发布的《摹本大系》，得益于其具有大量甲骨片清晰字形，降低了标注的难度。

另一方面，AI相关技术的应用也为数据集的信息丰富提供了支撑。比如由腾讯优图实验室联合安阳团队开发的甲骨字检测模型，可以对甲骨片上的字进行一个初步的标注；字形降噪与匹配模型，为检索提供了最直接的方法；甲骨校重算法，可以实现拓片与大系摹本的配准，使得大系摹本可以直接辅助拓片的标注；同时双方联合打造的协同创新平台，也大大提升了数据标注的效率。

此外，数据集专业复查以甲骨文信息处理实验室的研究生为主力，充分融合了甲骨文知识和机器学习知识的专业知识，也大大提升了数据集在AI算法研究场景下的可用性。

腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人吴运声表示，人工智能正在给包括甲骨文研究在内的科研场景带来新能量，以前所未有的方式推动科研工作的进展。作为前沿技术的探索者，腾讯不断探索将人工智能技术深度应用于产业场景中，同时搭建开放的技术平台，推动技术普惠。此次联合数字甲骨共创中心开源全球最大甲骨文多模态数据集，我们期待有更多技术团队能够携手共进，探索人工智能技术在更多场景落地，共同为甲骨文研究提供更多助力。

热门相关：极品医圣超级英雄万妖帝主锦绣田园：医女嫁贤夫都市之九天大帝