最前线 海天瑞声CEO王晓东 大模型时代来临 数据服务市场将从新洗牌

科技 2023-05-26 22:20:32 浏览
最前线

文|林炜鑫

编辑|邓咏仪

5月26日,海天瑞声在北京召开媒体见面会,分享了在多模态数据、数据标注平台方面的新停顿。另外,CEO王晓东发表品牌晋级战略,公司保管中文称号“海天瑞声”,英文名则更改为“Dataocean AI”。

海天瑞声是国际AI训练数据业余提供商,努力于为AI产业链的各类机构提供AI算法模型开发所需的业余数据。

海天瑞声CEO王晓东

王晓东示意,海天瑞声靠语音数据业务起家,逐渐扩展业务范畴,如今曾经成功了语音、图像、文本全笼罩,公司的指标是为客户提供高品质数据。“如今叫数据时代,必需新基建,”王晓东说,“咱们公司提供高品质水泥,数据时代新基建树立的基础,都必需数据。”

同时,海天瑞声也将初次收费放开DOTS-MM-0526多模态数据集,包含音频、视频、文本等消息,宿愿借此为中国人工智能放开生态树立贡献力气。

海天瑞声CTO黄宇凯引见了公司自研的专为智能驾驶设计的数据标注平台“DOTS-AD智能驾驶标注平台”。该标注平台片面允许2D、3D、4D电晕或图像数据标注;允许智能化标注,数据标注效率将优化8倍;智能化治理数据,确保客户的商业数据安保合规。

眼下大模型势头正盛,泛滥科技公司纷繁规划大模型。王晓东以为,由于大模型的出现,“整个数据服务市场将从新洗牌,集中度也将进一步优化。”市场将逐渐淘汰研发弱、资源差的一些中小玩家。

面对多家巨头下场的强烈竞争,海天瑞声领有自身的技术壁垒。王晓东以语音数据为例,公司有专门的团队在全球采集各种言语数据,“咱们有咱们的言语专家,有少量的资源”。王晓东示意,目前公司领有190多种言语数据。

大模型也将进一步影响相干的数据服务。黄宇凯通知36氪,大模型的训练主要分为两个阶段,第一阶段叫预训练,对数据采集和数据荡涤有很高的恳求,“不是越多越好”;第二阶段叫微调或对齐阶段,必需高品质的prompt(指令),“十分难写”,prompt决议了训练成果,因此标注人员的自身素质也很重要。大模型时代,技术更新迭代的速度很快,黄宇凯说,“咱们十分激动,当然这外面也有很多时机。”

本文版权声明本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系本站客服,一经查实,本站将立刻删除。