财务管理

0

RPA系列:AI和RPA的关系

头像
张迅

RPA系列:AI和RPA的关系

聊天机器人不是RPA?

从几个搞聊天机器人的朋友处了解到,他们更觉得自己是AI,与RPA距离有些远。

猜测一种可能的原因:RPA在落地的时候,一般希望的场景是短流程,RPA最好只处理一件事情。但如果RPA只处理聊天,那是叫聊天机器人好呢?还是RPA好呢?

从RPA的英文全称“Robotic Process Automation”来看,这三个关键词涵盖的内容很广,且没有限定具体使用的技术。是谁让RPA变了味道?而Gartner模糊RPA的存在,更倾向于自动化,原因何在?

RPA为什么要强调智能(AI)?

一言以蔽之,如果缺少智能,RPA使用场景受限、且很难应对变化。

以变化为例,RPA进行服务时,如果打通的一方并不受控,应该假设该方的变化是常态,否则会遇到很多实际问题。

比如,国家企业信用信息公示系统(gsxt.gov.cn)是个政府网站,如果RPA想通过页面抓企业信用数据,前段时间应该是可行的。

可它不受控,并且它变了,啥时候变的也不通知,我们仅知道它变了——至少多了验证码,也多了访问ip控制。

之前设计的无智能的RPA机器人就不好使了。

从第三方(比如国家企业信用信息公示系统)的角度看,数据是重要资产,而且越来越重要,那么反抓取的机制也会逐渐进化,如果RPA缺乏智能的手段还真应对不过来。就拿国家企业信用信息公示系统来说,IP控制还有技术手段应对(合不合法另说);但现在的验证码已经进化到不是简单的“图像+坐标+识别”就能处理的了,想自动处理,可能要加上语义理解(NLP),准确率则要看客户的业务是否能够忍受;至于把验证码业务外包给专业公司(得客户许可使用这个专业公司),估计这种码他们可能就是人工验证了,万一第三方(比如国家企业信用信息公示系统)的验证码再加上较短的时间限制,麻烦事就更多了。

Robot的许可

一些重要网站,已经规定了哪些爬虫可以爬自己的数据,哪些不可以。比如淘宝网站就规定baidu的爬虫不能爬自己,大家可以看看网站根目录的robots.txt文件。bing中国也有自己的规则。

至于RPA是不是某种意思的爬虫,那就见仁见智了。



本文转自 简书,原文链接:https://zhuanlan.zhihu.com/p/563956977,如需转载请自行联系原作者
头像
丢弃