各位领导,各位嘉宾大家上午好,我是来自海天瑞声科技的李科,今天我来跟大家分享一下我们在大模型时代下的数据工程的一些认知。
大家都知道整个人工智能这一轮的爆发期得益于三方面的共同进步,包括算力、算法和数据,我们公司一直专注于数据这个角度,所以从数据这个角度跟大家分享我们的一些所见和所得。我今天的介绍主要分三部分,第一是整个数据行业的介绍,我们这个行业比较垂直,所以给大家做一些简单的科普。第二部分是介绍一下在大模型时代数据新范式的观察,第三介绍一下我们公司在数据方面的一些探索和实践。
大家都知道,对于数据来讲,它是人类知识的载体,高质量数据是人类知识的精华,也是大模型能力的基础,决定模型能力的上线,大家都了解到大语言模型时不时会有幻觉和错误信息产生,高质量数据有助于纠正模型的幻觉和错误信息产生的。对于高质量数据来讲,大家有不同维度的衡量标准,从我们公司实际的实践角度来看,认为以下五个维度相对来讲比较重要,分别是准确性、多样性、真实性、时效性和完整性。随着整个人工智能产业的发展,人工智能数据这个产业也仍然处在高速发展的过程,援引一些数据,今天时间有限就不展开了。
下面给大家介绍一下我们看到的大模型时代下的数据新范式,首先是新时期的高质量数据集的需求趋势,其实我们的需求趋势并不是简单的直接得到的,其实我们是跟整个模型技术发展息息相关。随着GPT o1推出,包括今年初DeepSeek R1的推出,从大语言模型角度来讲,从知识问答模型转向推理模型,希望通过更好的推理过程能实现更好的答案。对应从数据角度来讲,可以看到思维链数据在去年年初到今年以来得到非常广泛的爆发趋势。思维链数据简单来说不只是简单的提供答案,同时要把推理过程显示、展示出来,一步一步把它明确地标注出来,展示整个推理过程,这样能够帮助模型提升推理能力。
第二,随着基础模型能力提升,必然向行业模型或者垂直行业角度来发展。对应的,从数据角度来讲需要更多的行业数据,刚才曹晋滨院士介绍的空间智能就是非常典型的垂直行业。通用大模型其实在垂直行业的能力相对比较有限,补足这部分能力非常重要的一环就是数据本身,可以看到我们从数据角度来讲需要更多行业数据注入。
第三,从模型发展角度来说,大语言模型已经发展得很好了,未来必然会有多模态模型的产生。从技术角度来讲,从文本模型到多模态模型的转换,从数据角度来讲,必然需要多模态的数据,比如,文本和图像对、文本视频对,这些都是用文本描述图像或视频当中的每一个对象、对象之间的关系,这个数据对多模态模型的建立和能力会有非常大的提升。
第四,刚才张院士和郭总提到的具身智能,具身智能未来必然会是人工智能下一步发展的方向。具身智能大家都公认在数据层面相对比较缺乏,前三个推理模型也好包括行业模型、多模态数据也好,多多少少可以从互联网上进行获取,但对于具身智能来讲,更多的是智能体和物理世界交互,力传感数据很难从互联网上获取到相应的数据,但是随着具身智能行业发展,这个数据本身必然会是非常重要的一个组成部分,我想具身智能的数据需求在未来也会呈现指数级增长。
总体上,为了迎合整个数据行业变迁,从我们数据标注的能力上来讲,可以看到从数据处理角度来讲,数据标注平台会向智能化、工程化、平台化的方向发展。这里面简单列举了数据处理的一些过程,比如数据结构设计、数据汇聚存储、加工标注、质量审核、服务等等,每一个环节其实都有大量的技术化问题要去解决,今天时间有限就不展开介绍了。总体上来讲,我们希望通过人工智能技术来提升数据处理的效率和质量,所以整体上数据标注会向智能化、工程化、平台化方向去发展。
接下来再跟大家分享一下,基于这些变迁的角度,海天瑞声在数据方面的探索和实践。我们公司2005年成立,到今年正好成立20周年,我们是一个典型的随着人工智能产业发展而发展壮大的一家公司,在整个发展过程当中在不断拓展我们自己的业务领域,比如2017年我们开始做自动驾驶,2022年开始做大模型,2024年开始做具身智能,这些都是随着我们产业发展,从数据角度来讲要为产业提供的一些支撑。特别值得一提的是,2021年正式登陆A股科创板,是国内第一家也是唯一一家到目前为止在人工智能数据行业的上市公司。
这二十多年我们专注做了两件事情:第一是始终投研发,研发了人工智能数据工程一体化服务平台。二是持续构建超大规模的高质量数据集。从平台来讲沉淀了三方面能力,第一方面是本身核心的算法能力,刚才跟大家分享过,从我们的角度来讲,我们希望通过人工智能算法应用来解决数据访问和数据标注的效率、质量问题。第二方面是平台工具能力,这个平台对应传统制造业就像一条生产线,只不过传统的制造业生产线产生的是实物,而我们产生的是数据,我们需要对这个平台做一些柔性生产能力的建设,比如可以通过无代码拖拉拽的功能可以快速地构建一个数据生产流程,我们在这个平台上已经构建了千亿个专业级数据处理工具,来实现我们希望的这种功能。第三方面在平台上沉淀了本身的生态建设能力。从数据标注本身这个产业来讲,其实一定程度是从知识密集型产业,需要把我们人类知识转换成人工智能可以识别、可以理解的形式,所以在我们平台上也就沉淀了自己本身的40多万的标注源,这些标注源可以提供多行业、多领域、多层次的数据标注能力。
第二是刚才提到的高质量数据集本身,截止到去年底已经保有1659个自有知识产权高质量数据集,这些数据集可以授权给我们的客户来使用,帮助研发他的人工智能算法或者人工智能系统,可以实现在大模型训练全流程、全类型、多模态、全球化、多语言训练,覆盖14大基本行业,能够支撑这些行业大模型的发展。同时也有超过一千多家客户,不管是从AI编程还是决策化服务个性化服务的能力,还是智能驾驶、大模型基本测试等等角度提升我们整个客户在大模型研发方面的效力和能力。
下面给大家看到的是客户,我们内部有一个说法,我们实现了AI产业巨头的全覆盖,不管是国内,包括北京、安徽的企业还是海外巨头公司都是我们的长期合作伙伴。
最后希望跟北京、安徽两地人工智能公司一起以数据之魂铸智能之本,共同推进人工智能产业发展。谢谢大家。