【亿邦动力网讯】“我们相信零售会成为我们第15个营收过千万的行业。”商汤集团总经理尚海龙说。
近三年,商汤代表的计算机视觉公司以算法和更高的精准度打破海康、大华等传统巨头的藩篱,闯入相对封闭的安防领域。
随着安防市场的红海化,恰逢线下零售的升级换代,2017年下半年,视觉技术里大小玩家纷纷押注零售,安防领域的AI明星在思量这会不会成为下一个高地,在小众领域耕耘已久的潜力股,也在期盼得到走向台前的机会。
“通过技术赋能效果展现了以后,我相信整个零售行业真正进入了从商品或服务来要利润,转成向数据要利润,大家能够意识到数据的价值,这个意识的转变是伟大的。”
但是零售场景的分散化和多变性给新技术带来了莫大考验,也让市场更加不确定。人工智能视觉能否被一片传统土地接纳,这是场复杂得多的践行。
看清人脸是基本功
顾客在闸门前面对摄像头站定,数秒后连接摄像头的屏幕上出现机器采集的人脸,即完成身份认定,购物结束再次刷脸可支付离店。在苏宁体育Biu门店里,这张脸也正是用户的逛街ID,摄像头以及背后的机器兢兢业业地记录着:男,25岁,在耐克鞋前停留时间较长,购买了一顶鸭舌帽。
苏宁Biu的视觉解决方案由商汤提供,对于CV明星而言,识别人脸乃看家本领。2014年,商汤创始人汤晓鸥的联合实验室用20万人脸数据达到98.52%准确率的成绩,超越人眼,在业界一炮而红,之后,商汤以技术优势杀入资金充沛、需求刚性的安防市场。
“图像四小龙”商汤、依图、旷视、云从发展路径类似,去年都完成数亿元融资。三四年前,全国安防设备产生的海量数据亟待处理分析,比如如何在火车站的人海中扒出流窜的犯罪嫌疑人,把持政府项目的传统巨头却无力消化,人工智能视觉“趁机而入”。
2017年,尤其是下半年,随着新零售、智慧零售的概念落地,视觉明星们也陆续杀入其中,包括商汤、旷视、依图、图普、阅面等等。它们以“刷脸进场“和“刷脸支付”占到一席之位,商汤与苏宁联手,旷视拿下了阿里巴巴的淘咖啡,图普把技术铺到了天福超市、EasyGo以及OPPO……
两项功能被广泛应用于无人门店和升级改造中的传统零售店,这也是目前视觉技术最被熟知的功能,最直接的效果是可以简化收银环节,节约成本。
当然,初出茅庐,在陌生的零售场域打拼容易么?
“AI不具备普适性,没有万能的,不同场景对算法的要求不一样。相比安防和金融,零售的场景太复杂多变了。”一位视觉产品经理感叹道。
据透露,目前的刷脸技术其实相对简单。“市场上提供的算法多是正面底库识别,这种门禁模型做线下零售是有一定的问题。线下零售要做到无感知,可能不是通过注册的人脸做识别,而是第一次进店的抓拍作为底库,可能光线不好,可能有遮挡,可能是侧脸,这就需要专门的训练。”
尤其是涉及支付环节,必须人为设置固定的静态场景,强制要求消费者配合,即便是人脸识别老大商汤所搭建的苏宁Biu店也依托于闸门。
“现在谨慎一点的,像各大银行ATM刷脸取款增加六位密码确认;大胆一点的,像苏宁门口有闸机,结账一个个排队,这样支付环境有固定的静态场景,准确率基本可以做到百分之百。大量的动态比对会成问题。”尚海龙说。
理论上,机器视觉不是没办法抓取非配合条件下的动态人脸,火车站里抓捕逃犯就涉及到人脸检测、特征提取、比对多项技术,机器先在一帧视频中框出所有的人脸,然后挨个与公安机关的照片数据库对照。但问题在于,场景的变化要求对算法同步调整优化。
简24原本调用过外部的技术,但后来选择了自主研发。
“并不是因为外部技术不好,在机场这种公共场所,能从茫茫人海当中一眼把恐怖分子识别出来,产品挺牛的,但关键问题在于,第一,需要为我们的场景做优化,任何的算法都要根据本地场景优化才能达到最好的效果。第二,它们的训练人群和我们的不一样。”创始人林捷透露。
同时,人脸本身的局限性能否完全应用于零售业也存在争议。“我们认为外部特征不能作为人的终生ID,或者绑定金融支付,很危险的。”深兰科技创始人陈海波说。
他对自家的“不要脸运动”深以为豪,以扫手取代刷脸,扫的是静脉、动脉和毛细血管,以每一根血管的分叉点和点与点之间位置关系为特征值。
“我们的N值达到4亿(能与4亿数据做对比,简单说,N值越高算法和算力越强),再加上4位手机号码,做到了40亿。”
公开数据显示,商汤2017年有20亿张人脸数据,2亿个体训练,达到9位密码时代。
进场之后,靠脸的可能性也不大了。
“一说到视觉技术就想到刷脸,其实这是最为简单基础的功能。”林捷说,“进场之后拍不到人脸,靠体态识别这个人,知道他拿了什么商品,这比较难。”
业内公认的、视觉技术应用的极致表现为Amazon Go,全程通过机器捕捉看了什么,拿走了什么,离店后自动扣款,当然,为确保准确性,Amazon Go还采用了重力感应器、二维码、红外感应器等辅助技术。
深兰于2016年4月发布了无人值守零售解决方案,陈海波告诉亿邦动力网,人与货关联的算法极为复杂,“入场时采集到人的数据,包括人的体型,头到地面的距离,肩到地面的距离,这是一个综合数据,摄像头一直在追踪用户。在商品区有一条无形的电子栅栏,手伸进去以后触发摄像头开始抓取动作。摄像头以每秒30帧抓取手,当触及商品时每秒120帧, 同时实时去背,扣掉背景,让摄像头都集中看商品,更精准判断它是什么。”
“全程要调动多个摄像头协同监控,实时调整每个摄像头的权重。如果商品和背景一个颜色,那机器大脑也没办法了。”
你们这方案多少钱?
“零售毛利低,对每一笔投资都会非常谨慎。相应而言,它是一定要看到效果才会投资。”尚海龙说。
从安防到零售,作为服务方的计算机视觉公司明显感知到客户预算的锐减。
比如,公安系统的视频监控方案并非适用一般的零售商,“它本身使用是公安内网,一个本地化的服务器集群,用物理服务器去承载所有的视频流,服务对象的特性决定了方案的设计。”一位视觉从业者表示。
普通零售商针对视频监控则必须考虑:第一,本地加服务器,购买服务器需要几万元,而且需要人维护,还要防止偷盗丢失破损;第二,云加端,视频流传到云端处理方案的网络带宽成本加云端GPU服务成本也不低,传输至少一个720P或者一个高清码流,带宽少说要4M,一个CPU服务器,大概阿里是500块钱一年,GPU是3000块钱一年;第三,压缩视频流上传云端,会丢帧失真,效果很差。
“政府项目可以说不计成本,以达到最好的效果,这和商业的逻辑不一样。”
硬件占据方案成本中的大头,包括GPU、相机以及各类感应器等。
后台分析是店里配备小型硬件处理站还是走云端,包括私有云、公有云还是混合云,厂商们提供了开放选择。图普负责零售产品的刘凯解释称,上不上GPU由客户需求决定,云端分析处理的好处是及时性更强,刚到店的客人马上就能被识别出来,模型、程序的更新也是在云端完成,无需人工干预,但是对网络传输要求高;本地化分析则几乎不占用忙时带宽,在本地分析完后再在闲时将分析结果上传到服务器。
“根据客户实际的需求以及资源的限制来做选择,没有最好的,只有最适合的。”刘凯说。
相机有原本线下就在用的几百块的普通摄像头,也有动辄上千的深度版,还有方案提供商自主设计的独家产品。
普通相机是单目的,2D成像,而深度相机通过双目或3D结构光或加红外模组实现3D效果,也就可以知道物体离相机多远,当然价格也更贵。
“我们现在用2D相机,通过算法模拟3D,当然,如果用深度相机模组可以更准,但成本太高了。”一位产品经理表示。
原有的设备可以用起来。“原来已经投资过的东西我们不会进行破坏性的损伤,摄像头我们要200万像素以上就可以,原来超市里已有的摄像头直接就可以用,并联进我们的系统就可以。“尚海龙表示。
图普向天福超市提供的改造方案正复用了原有摄像头,对接CRM系统拿到会员头像和消费记录,自动识别VIP,精准发送促销广告。
如何把握效果和成本之间的天平,是初来乍到玩家的必修课。
“如果不计成本的话,我们的精度早就上去了。”简24创始人林捷说。
简24是Amazon Go的国内追随者。Amazon Go由亚马逊在2016年底发布,主打拿了就走、不需排队的,引发业内震撼。今年年初,亚马逊从内测正式向公众开放,而经过两年的时间,技术圈和零售圈的人也都意识到这只是个“showcase”,实在不具备大规模复制可能性。
根据公开报道,Amazon Go在160平米的空间里布置了上百个摄像头,RGB和深度摄像头结合,并采用了红外线感应器和重力感应器,盛传成本高达千万美金。
推出了2.0版本的林捷用的是“几百块“的普通摄像头,也不能布置太多,依靠算法迭代来提升精度。
“还是要回到商业的本质,摄像头的价格和数量肯定对效果有影响,但是在零售场景下,成本太高根本不能收回投资,这个商业模式就不成立了。”林捷说。