海天瑞声:大模型高质量数据需要高质量人工支持
7月24日消息,海天瑞声(SH688787)董事长贺琳近日接受媒体采访时表示,大模型高质量数据的提供,需要高质量人工的支持。同时,数据的清洗和标注流程对于模型的质量至关重要,它们可以提高数据的质量和准确性,帮助模型更好地去学习,也为模型的评估奠定了一个很好的基础。
据每经报道,海天瑞声是国内最早投入AI训练数据的专业服务商之一,2023年,不断翻涌的大模型浪潮将这家公司推至资本市场的聚光灯下。而身处潮水之中,贺琳对未来的思考依旧谨慎。
对预期审慎乐观
ChatGPT的出现,让这家数据公司突然站到了资本市场舞台中央。2023年初,贺琳在海天瑞声公司年会上的发言稿,80%由ChatGPT完成。开年以来,海天瑞声股价一路走高,3月一度涨至191.96元/股,较其2021年8月上市时翻了一番。
而海天瑞声方面,则已多次在投资者互动平台发布提示,称公司与OpenAI没有合作,也尚不能预期大模型业务将带来多少收入。贺琳认为,合适的入局时机应该是当这项技术能够真正在行业中落地的时候,这意味着其有真正的应用场景,而非伪场景。
同时,当行业落地时刻到来,数据的需求量也会迎来大规模提升。4月18日,海天瑞声正式推出其专为自动驾驶场景设计的全栈式数据标注平台“DOTS-AD自动驾驶标注平台”。
差距依旧存在
贺琳曾就职于中国科学院声学研究所,从事语音识别、语音合成、汉语语言理解、语音心理测试等方面的研究工作,成立于2005年的海天瑞声,最初诞生于贺琳在这份工作中捕捉到的行业痛点。
随着技术的发展,智能语音从实验室走向大规模应用阶段,更多场景的覆盖需求,意味着数据需求随之大规模增加。与此同时,在与一些就职于大型企业或研究机构的前同事交流时,贺琳发现,大家都在关注数据的问题。
时至今日,贺琳觉得,彼时促使她创业的瓶颈依旧存在。在她看来,数据的需求是跟着技术的发展而变化的,随着技术在各个行业中落地,就会有更多的数据需求爆发。
贺琳称,现在很多人都认为,数据差距是一个造成系统性差距的非常重要的原因,所以大家认为数据还是很重要的要素,这个瓶颈依然存在。不同的是,自己创业之初,国内竞争对手少,海天瑞声得以在市场快速突围。而如今,国内已经出现一批新的数据公司,先发优势成为当下数据公司核心竞争力的基础。
庞大参数支撑
海量数据如何最终成功支撑起庞大参数的大模型运行?答案就是数据集。贺琳介绍,数据集的产生是一个非常复杂的过程,其中包括设计阶段、采集阶段、处理阶段以及最后的质检阶段。
在设计环节,需要先去了解数据集是为了解决哪个问题,这个问题需要什么样的数据,需要多大的量,需要什么样的场景,以及采集的样本、规模、内容,包括采集的设备、标注的规范等等;采集环节则是按照设计的方案,到大千世界采集,有可能是声音,有可能是图像、图片,又或是手写的字、道路的场景。
采集完成后则需要进入清洗、标注环节。最后生产出的数据集需要通过双层的质检流程,最终才能生产出一个合格的数据集。这其中,清洗规则的好坏、标注的准确性都会极大地影响数据集的质量,进而影响模型的效果。
贺琳举例说,海天瑞声的大模型数据清洗率是5%,即清洗出来正确的数据仅仅占原数据的5%,这也印证了数据清洗环节的重要性。而标注的流程则主要是解决准确性和一致性问题。
贺琳认为,高质量的数据包括了数据的丰富度,场景的丰富度,数据的准确性、一致性等,这都是衡量高质量数据的标准。她也认同,高质量数据的提供,需要高质量人工的支持。