训练数据超20亿 云从科技视觉大模型刷新四项世界纪录

专栏号作者 松果财经 / 砍柴网 / 2023-07-21 20:15
"

近日,云从科技在视觉大模型上取得重要进展,行人基础大模型在PA-100K、RAP V2、PETA、HICO-DET四个数据集上从阿里巴巴、日立等多家知名高校、企业与研究机构脱颖而出,刷新了世界纪录。

 其中最高在PA100K上的Fine-tuning准确率达到92.89%,比SOTA高出5.2个点,四个数据集所涉及的范围覆盖人体全局属性(性别、年龄),局部属性(穿戴风格、配饰),携带属性(手机、刀棍、手提包等)、人-物交互HOI(抽烟,持刀棍,手机拍屏幕)等。

 

表1:云从科技在PA-100K、RAP V2、PETA行人属性数据集上的表现

作为“六感”之首的视觉,占据了人类吸收外部信息的70%以上。对于人工智能也一样,行人基础大模型让人工智能如何识别关于人的一切信息,准确率的提高具有非常高的实用价值,本次突破意味着该技术首次达到大规模商用水平,也意味着计算机视觉已经迈入「大模型时代」。

多模态结合自监督学习 打造全球领先核心技术

以人为中心的感知任务,一直是人工智能领域研究的热点,大模型具有强大的表征能力,并且在多种数据模态(如语言、音频、图像、视频、视觉语言)上得到验证。行人基础大模型已经发展成为视觉大模型基础,云从科技结合实际业务落地需求,研发以人为中心的预训练大模型,专注于以人为中心的各类下游任务,实践和贯彻“人机协同”理念。

 表2:云从科技在HICO-DET人-物交互数据集上的表现

云从行人基础大模型,使用了超过20亿的数据,包括大量无标签数据集以及图文多模态数据集,数据集的丰富多样使得模型能够提取到非常稳健的特征,轻松应用于多种行人任务。

基于自监督学习范式,云从科技充分结合了对比学习和掩码学习的优点,使得模型包含丰富的语义信息,同时具有丰富的纹理细节提取能力。为了让模型学习拥有更加丰富的行人语义信息,结合多模态继续使用弱监督训练范式,进一步提升模型的效果。

在实际应用场景中,大模型与针对单一任务的专用模型相比,表现出很强的泛化性,可以大大节约对真实数据的需求,甚至不需要额外收集真实数据,极大节省了在下游任务上的迁移成本,可快速将大模型能力迁移到新的应用场景之中,并且可广泛应用于能源、交通、制造、金融等行业领域,并为这些行业打造专属的行业大模型,深度赋能。

基于基础预训练模型 大幅降低研发成本

传统的行人检测和分析存在诸多难点,包括缺乏对场景的理解,只能检测出所有目标;其次行人的某些特征非常细微,需要模型具有细粒度的识别能力,各种大姿态和环境干扰容易造成影响;最后,对行人的检测分析需求多变,层出不穷,大部分需要定制化开发。如何能够降低开发成本,在技术产业化的过程中非常关键。

 基于从容大模型平台,开发者可以大幅降低对数据的依赖和提升训练效率,仅需要1%的数据量即可达到与原场景定制化开发模型相接近的效果,适合获取真实样本代价非常高的特殊行业。

目前,该技术已广泛应用于矿山、建筑工地以及特殊场所的安全布控,监控作业人员穿戴合规,姿态行为等异常和违规行为。

此前,云从科技跨镜追踪技术于2018-2020连续三年三次打破世界纪录,行人基础大模型的突破,表明云从从容大模型已经整合西部算力中心、联合研发中心、行业数据等资源,打造出了更优秀的人工智能视觉大模型,为实现人机协同操作系统和行业专用大模型在行业智能化升级领域的大规模实践打下了坚实的基础。

来源:云从科技

分享到
声明:砍柴网尊重行业规范,任何转载稿件皆标注作者和来源;砍柴网的原创文章,请转载时务必注明文章作者和"来源:砍柴网",不尊重原创的行为将受到砍柴网的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至:post@ikanchai.com
您想第一时间获取互联网领域的资讯和商业分析,请在微信公众号中搜索"砍柴网"或者"ikanchai",或用微信扫描左边二维码,即可添加关注,从此和砍柴网建立直接联系。

相关推荐

热文导读

1
3