海天瑞声专注于AI数据资源领域，其2024上半年营收为1.87亿元

发布时间：2025年07月31日

一、主要业务

北京海天瑞声科技股份有限公司是中国领先的人工智能训练数据专业服务商，专注于为AI算法开发提供高质量数据集及解决方案。公司成立于2005年，业务覆盖智能语音、计算机视觉、自然语言处理三大核心领域，通过定制化数据服务、标准化数据集产品及数据应用服务，赋能自动驾驶、虚拟人、智慧金融、智慧城市等50余个应用场景。其智能语音数据覆盖全球超200种语种/方言，计算机视觉领域聚焦3D点云、BEV标注等前沿技术，自然语言处理业务则涵盖大模型预训练、RLHF数据评分等全流程需求。客户包括阿里巴巴、腾讯、百度、微软、三星等全球科技巨头及科研机构，2021年成为国内AI数据资源领域首家科创板上市企业，定位为“智能世界的数据基石”。

2024年上半年北京海天瑞声科技股份有限公司营收情况（亿元）

二、核心竞争力分析

1、多模态数据全链条技术能力与全球化语种壁垒

海天瑞声的核心优势在于构建了从数据采集、标注到质检的全链条技术体系，并自主开发一体化数据处理平台。在智能语音领域，公司积累超200种语种/方言的发音词典及千万级词条，语言学家与AI工程师协同攻克小语种音素集与发音规则，形成难以复制的语种库；计算机视觉领域，其DOTS-AD平台支持4D标注、3D点云语义分割等复杂任务，引入SAM模型提升2D分割效率50%；自然语言处理方面，推出大模型专用数据集DOTS-NLP-216，覆盖Prompt改写、多轮对话等强化学习需求。技术复用性极强，例如语音标注能力可迁移至车载语音交互，视觉标注技术适配自动驾驶多传感器融合场景。

2、标准化数据集产品化与垂直领域深度绑定

公司通过将数据服务产品化，构建了“一次研发、多次销售”的高毛利商业模式。自主研发超1,550个标准化数据集，涵盖多语种语音、多模态融合等方向，显著降低客户定制成本并加速交付周期；同时，深度绑定头部企业需求，例如为智能驾驶厂商提供BEV标注解决方案，为科技巨头定制大模型RLHF评分数据，形成“数据-模型-场景”闭环。这种模式不仅提升客户黏性，还通过前瞻性布局（如合成数据、联邦学习）提前卡位新兴领域，避免陷入低端标注的价格战。

3、产学研协同创新与数据安全合规体系

海天瑞声依托中关村科学城资源，与清华大学等机构联合发起技术竞赛（如中英文混合语音识别赛事），推动算法与数据协同进化；参与制定AI数据标注行业标准，并获ISO27001等安全认证，建立从数据脱敏到区块链存证的全流程合规体系。在数据出境监管趋严背景下，公司率先完成首笔跨境安全评估，保障境外业务连续性。此外，通过“AI预标注+专家精修”模式平衡效率与质量，例如医学标注引入专业医师团队，法律数据标注联合领域律师，确保高复杂度数据的可靠性。