海天瑞声：大模型高质量数据需要高质量人工支持

2023-07-24 10:41 由吴丽发表于 #商业

7月24日消息，海天瑞声（SH688787）董事长贺琳近日接受媒体采访时表示，大模型高质量数据的提供，需要高质量人工的支持。同时，数据的清洗和标注流程对于模型的质量至关重要，它们可以提高数据的质量和准确性，帮助模型更好地去学习，也为模型的评估奠定了一个很好的基础。

据每经报道，海天瑞声是国内最早投入AI训练数据的专业服务商之一，2023年，不断翻涌的大模型浪潮将这家公司推至资本市场的聚光灯下。而身处潮水之中，贺琳对未来的思考依旧谨慎。

ChatGPT的出现，让这家数据公司突然站到了资本市场舞台中央。2023年初，贺琳在海天瑞声公司年会上的发言稿，80%由ChatGPT完成。开年以来，海天瑞声股价一路走高，3月一度涨至191.96元/股，较其2021年8月上市时翻了一番。

而海天瑞声方面，则已多次在投资者互动平台发布提示，称公司与OpenAI没有合作，也尚不能预期大模型业务将带来多少收入。贺琳认为，合适的入局时机应该是当这项技术能够真正在行业中落地的时候，这意味着其有真正的应用场景，而非伪场景。

同时，当行业落地时刻到来，数据的需求量也会迎来大规模提升。4月18日，海天瑞声正式推出其专为自动驾驶场景设计的全栈式数据标注平台“DOTS-AD自动驾驶标注平台”。

贺琳曾就职于中国科学院声学研究所，从事语音识别、语音合成、汉语语言理解、语音心理测试等方面的研究工作，成立于2005年的海天瑞声，最初诞生于贺琳在这份工作中捕捉到的行业痛点。

随着技术的发展，智能语音从实验室走向大规模应用阶段，更多场景的覆盖需求，意味着数据需求随之大规模增加。与此同时，在与一些就职于大型企业或研究机构的前同事交流时，贺琳发现，大家都在关注数据的问题。

时至今日，贺琳觉得，彼时促使她创业的瓶颈依旧存在。在她看来，数据的需求是跟着技术的发展而变化的，随着技术在各个行业中落地，就会有更多的数据需求爆发。

贺琳称，现在很多人都认为，数据差距是一个造成系统性差距的非常重要的原因，所以大家认为数据还是很重要的要素，这个瓶颈依然存在。不同的是，自己创业之初，国内竞争对手少，海天瑞声得以在市场快速突围。而如今，国内已经出现一批新的数据公司，先发优势成为当下数据公司核心竞争力的基础。

海量数据如何最终成功支撑起庞大参数的大模型运行？答案就是数据集。贺琳介绍，数据集的产生是一个非常复杂的过程，其中包括设计阶段、采集阶段、处理阶段以及最后的质检阶段。

在设计环节，需要先去了解数据集是为了解决哪个问题，这个问题需要什么样的数据，需要多大的量，需要什么样的场景，以及采集的样本、规模、内容，包括采集的设备、标注的规范等等；采集环节则是按照设计的方案，到大千世界采集，有可能是声音，有可能是图像、图片，又或是手写的字、道路的场景。

采集完成后则需要进入清洗、标注环节。最后生产出的数据集需要通过双层的质检流程，最终才能生产出一个合格的数据集。这其中，清洗规则的好坏、标注的准确性都会极大地影响数据集的质量，进而影响模型的效果。

贺琳举例说，海天瑞声的大模型数据清洗率是5%，即清洗出来正确的数据仅仅占原数据的5%，这也印证了数据清洗环节的重要性。而标注的流程则主要是解决准确性和一致性问题。

贺琳认为，高质量的数据包括了数据的丰富度，场景的丰富度，数据的准确性、一致性等，这都是衡量高质量数据的标准。她也认同，高质量数据的提供，需要高质量人工的支持。