财务管理

0

司法会计:发现财务欺诈_WorldQuant_HIT65

头像
小财

只要企业存在,金融犯罪就会一直存在。但随着犯罪者采用新的骗局,监管者正转向新的工具,包括机器学习,以逮捕他们。

“陈先生没有将嘉汉林业的支出导向合法业务运营,而是将数亿美元投入虚构或估值过高的业务领域,他在这些领域从事未披露的关联方交易,并将资金注入他秘密控制的实体,”2018年3月,安大略省高等法院法官迈克尔·彭尼(Michael Penny)裁定,这是加拿大历史上最大的公司欺诈案之一。嘉汉林业(Sino-Forest)联合创始人、前首席执行官艾伦•陈(Allen Chan)被勒令支付逾26亿加元(合20亿美元)的损害赔偿金,而投资者因该公司股价大幅下跌而累计蒙受60亿加元的损失。

在一场不断演变的猫捉老鼠游戏中,过去几十年来,会计欺诈的实施者变得越来越有创造力,而监管者和调查人员则采用了越来越复杂的方法来抓捕这些恶棍。特别是,2000年后新的会计欺诈带来的冲击催生了诸如审计准则声明SAS 99、SAS 113、萨班斯-奥克斯利法案和SAS 56等法规,旨在防止会计舞弊;现在要求审计师使用这些分析程序来核实报告的财务报表。尽管如此,像嘉汉林业这样的案例仍在不断涌现。具有讽刺意味的是,普遍接受的会计原则(GAAP)的日益复杂,为操作的开阔创造了更多的空间,并使分析变得越来越困难。传统的方法,如百分比和财务比率分析(见附录),即投资者寻找与过去标准的偏差,是劳动密集型的,难以大规模部署。

本文将介绍四种强大的(如果不太熟悉的话)技术,它们可以帮助识别可能的会计错报案例:Beneish M分数,Dechow F分数,本福德定律(Benford's law)和齐普夫定律(Zipf’s law)。我们将使用两个著名的会计欺诈案例来展示这些技术是如何工作的:制药公司Valeant Pharmaceuticals International和时尚零售商SuperGroup。2015年,Valeant错误地记录了5800万美元的收入;尽管这与当时公司100亿美元的年销售额相比是四舍五入的误差,但Valeant的股价在三天内暴跌了30%,随后几年的争议和危机接踵而至。至于SuperGroup, 2012年该公司发布利润警告,归咎于“算术错误”,其股价在当天下跌了38%。

我们还将探索机器学习的前沿,作为解决普遍存在的会计舞弊问题的潜在途径。通过大数据和机器学习的演进,投资者不再局限于分析财务数据来发现会计舞弊。机器学习可以处理大规模的、多样的和多维的数据集。神经网络、支持向量机(SVM)和集成方法等技术已成功应用于欺诈检测,但仍有进一步创新的空间。


简史

在21世纪初,金融界受到了历史上最严重的会计欺诈的冲击,包括安然公司(Enron Corp.)和世通公司(WorldCom)。这些导致公司破产的大规模丑闻,使股东损失了数十亿美元。这一系列的会计丑闻引发了人们的强烈不满,呼吁防止或至少限制财务和资产报告中的重大错报。2002年,美国注册会计师协会(American Institute of Certified Public Accountants)董事会发布了题为“财务报表审计中舞弊的考虑”的指导意见(俗称SAS 99,见图1),要求审计师合理确保财务报表不存在由于错误或舞弊导致的重大错报。大约在同一时间,国会通过了萨班斯-奥克斯利法案,该法案扩大了对所有美国上市公司董事会、管理层和会计师事务在以下方面的要求:披露、审计、表外项目报告、内部风险控制、对财务错报的刑事处罚、保护举报人和提高行为标准。

SAS 99 提供指南去审视合理化造假的动机、机会和能力

与SAS 99相关的是SAS 56,它要求审计师采用定量分析,以确保财务报表中所有重大的科目和波动(季度变化)都得到令人满意的解释。例如,如果销售趋势与生产能力有很大的差异,那么这些销售可能是虚构的,或者至少是可疑的。类似地,对每月销售额和产品回报率的趋势分析可能表明渠道堵塞,这是一种欺骗性的做法,在这种做法中,为了提高利润,公司向零售商发送的产品超过了他们的销售能力。

近年来,监管机构利用尖端技术,建立了涉及会计欺诈、内幕交易和市场操纵的案件。在司法会计师的帮助下,证券交易委员会设计了一个计量经济模型,即会计质量模型,通过检查会计选择,如从总应计项目中估算任意应计项目,来识别可疑趋势,将其作为冒险欺诈的激励指标进行分析,然后与公司的同行进行比较,以评估会计操纵的可能性。

与此同时,还出现了其他四种技术来检测可能存在的欺诈行为。


发现欺诈的四个技巧

Beneish M-score由印第安纳大学凯利商学院的M.Daniel Beneish于1999年开发。Beneish利用1982年至1992年的Compustat数据开发了该模型,在样本外测试中,正确识别了76%的欺诈行为(即漏掉了24%),同时产生了17.5%的错误警报。M-score模型研究了八个关键领域,这些领域可以表明欺诈的动机或压力:应收账款销售天数指数(DSRI);毛利率指数(GMI);资产质量指数(AQI);销售增长指数(SGI);折旧指数(DEPI);销售、一般和管理费用指数(SGAI);杠杆指数(LVGI);以及应计利润总额与总资产的比率(TATA)。M分数大于–2.22表示可能存在操纵者。Beneish建分界点为-1.89,以平衡第二类错误(遗漏欺诈)的成本与第一类错误(错误警报)的成本。第二类错误产生的成本远远高于第一类错误,因为未能发现欺诈的影响可能是有害的,而虚假警报的成本则更低,因为投资者可以将其资本分配给大量其他股票。(M-score模型有一个局限性:因为金融机构通常都有杠杆资本结构,所以M-score不能用于它们,而杠杆是M-score的关键。)

Beneish表示,按风险调整的标准,被认定为操纵者的公司通常在一个季度内损失约40%的市值。假设一个季度典型的股票收益为1%到2%,那么同一投资组合中20到40个非操纵者的收益才能抵消这一损失。因此,与类型I相比,类型II的相对误差成本是类型I的20到40倍。贝尼什从40倍的相对误差成本中得出了-1.89的临界点。

在公司出现会计问题之前,Valeant和SuperGroup的M得分分别为-1.976和-1.586,均高于-2.22的门槛。当我们将指标与操纵者的平均值进行比较时,我们发现Valeant错报的可能来源是销售增长和折旧,而SuperGroup的可能来源是销售增长(见图2)。

Dechow F-score是Beneish M-score的最新变体,由加州大学伯克利分校的Patricia Dechow和Richard Sloan、华盛顿大学的Weili Ge和圣路易斯华盛顿大学的Chad Larson于2011年开发。该模型使用了1982年至2005年的数据,将造假公司的指标在造假前后,以及造假和非操纵公司的指标进行了比较。该数学模型从应计质量、财务绩效、非财务指标、表外活动和市场化指标五个方面对公司进行评价。

F-score分析了七个可能暗示欺诈行为动机的变量:非现金净营运资产(rsst_acc)、应收账款(ch_rec)、存货(ch_inv)、软资产(soft_assets)、销售变化(ch_cs)、资产回报率变化(ch_roa)和债务或股权发行(issue)。

这是一个定量的逻辑模型,你可以从分数中推断出概率。分数大于1.0表示风险高于正常水平(73%),分数大于1.85表示风险较高(86%),分数大于2.45表示会计操纵风险极高(92%)。

如图3所示,在公司会计错报之前的几年里,Valeant的F评分为2.41(92%,或高风险),SuperGroup的F评分为3.95(98%,或非常高风险)。

本福德定律采用了与M-score和F-score模型中使用的财务数据不同的方法:它是一个幂律,涉及数字中从1到9的数字频率分布。从数学上讲,该定律表明,来自广泛来源的数据中,数字的第一位数字遵循着概率分布。数字1是第一位数字的频率最高,而9的频率最低。

1881年,西蒙·纽科姆首次观察到了这一定律,1938年,弗兰克·本福德重新发现了这一定律。它似乎不仅适用于数学表达式产生的数字,也适用于来自人口统计、会计和地理等来源的各种社会和自然数据

以人均收入为10万美元、年增长率为5%的国家为例。这个国家的人均收入要达到20万美元以上需要15年的时间,但以同样5%的增长率达到30万美元只需要8年的时间。该国达到人均收入40万美元、50万美元等所需的额外年数将继续减少,直至达到100万美元;届时,该国将再次需要15年时间才能增至200万美元。回顾该国100年来的数据,以1开头的数字出现频率最高(34%),其次是以2开头的数字(16%),直到最低的9(4%)。

本福德定律可以用来检测会计报表中的欺诈行为,因为被操纵的数字往往与预期的频率有很大的偏差。图4回顾了Valeant和SuperGroup在其涉及会计欺诈的年度财务报表中报告的数字。(此外,为每个第一位数计算95%的置信区间。置信区间给了我们一个区间,在这个区间内数字与理论值的距离在一个合理的范围内。如果理论值在置信区间内,我们可以有95%的信心认为它与观测值没有统计学上的差异。)

在2013年和2014年,我们可以在Valeant的数字中发现一些违反本福德定律的行为,特别是在前一年,4和7作为第一位数的频率异常高。对于SuperGroup,我们观察到更多偏离预期频率的情况:2010年,数字3、4和9明显偏离本福德定律,而2011年数字6、7和9的差异更大。

Zipf定律类似于本福德定律,但它着眼于自然语言而不是第一位数。哈佛大学语言学家和语言学家乔治·金斯利·齐普夫观察到,文本中的“字符串”(即字符集合)出现的频率遵循特定的功能形式。根据Zipf定律,在任何自然语言的文本集合中,单词的频率与集合中该单词的频率等级成反比。因此,如果最常用的单词(排名第一)的频率为f,那么排名第二的单词的频率将为f/2,依此类推。

正如Adeola Odueke和George Weir所指出的,Zipf定律比本福德定律的一个优点是它可以应用于更广泛的数据集,因为它不限于数值属性。因此,可以通过使用一组另类数据来评估欺诈行为,而不是仅使用与财务报表相关的最传统数据。这种灵活性使得Zipf定律在未来的司法会计研究中更具吸引力,因为各种类型的数据变得更容易获取。

新视野:大数据与机器学习

检测会计舞弊是一项复杂而不断发展的任务,但可以利用大数据和机器学习的新发展来提高算法的准确性。除了数字和财务报表数据之外,大数据革命还为欺诈检测算法提供了多种信息,包括文本、社交媒体内容、会议报告、访谈和其他类型的非结构化数据。只要企业和监管机构能够有效地收集、存储和处理此类数据,欺诈检测能力就能显著提高。

随着数据量的不断增加,随着数据集中包含更多欺诈案件,模型培训自然会得到改善。鉴于欺诈性公司的数据数量相对较少,因此对I类和II类错误率产生负面影响,这一直是司法会计领域的一个问题,尽管一些从业人员已经找到了解决办法(例如,Dechow在她的F-score中),但最好的解决办法是让模型从有关会计不当行为的新信息中学习。

大数据并不是评估会计欺诈的唯一新工具;机器学习最近也取得了一些进展。欺诈行为的发现可以被定义为一个分类问题,利用机器学习方法可以提高准确性并减少第二类错误,这对投资者和监管者来说往往代价高昂。

Beneish M-score和Dechow F-score模型可以看作是使用机器学习的近似模型。他们的方法是一个经典的监督分类问题(通过计算输入变量和输出之间的关系来开发一个模型)——对相关财务比率使用probit和logit模型。Probit将操纵概率建模为正态分布,而logit将其处理为logistic分布:概率的对数。最近的一些机器学习应用已经遵循了这一思路,但是使用了其他机器学习算法来训练参数,如神经网络、决策树、集成方法、支持向量机、模糊逻辑和其他统计模型。

让我们仔细看看这些技巧。

神经网络是一种尝试,通过使用一组人工神经元和它们之间的连接来模拟人脑的结构。这些网络是通过应用反向传播算法来训练的,但是没有为特定任务建立这些模型的基础理论,更不用说为会计欺诈。

然而,神经网络在数据复杂非线性关系建模中的灵活性在检测会计舞弊中有着重要的应用。例如,Efstathios Kirkos和他的同事发现,一个有六个输入节点、一个隐藏层和五个隐藏节点的神经网络成功地将80%的验证数据分类,II型错误率为17%

神经网络研究的新进展,如深度学习,尚未用于欺诈检测。深度学习是指神经网络结构更加复杂,通常具有较多的神经元层。训练这些网络需要很大的计算能力,但随着能力的提高,可以训练更复杂的神经网络,并提高其检测欺诈的能力。

与神经网络不同,决策树为数据分类提供了一个逻辑和直接的过程,但这样做的代价是准确性。此外,在大多数应用中,决策树往往比其他分类方法表现差,因为它们对训练样本的微小变化的抵抗力较低,这表明存在过度拟合问题,或者建模错误,这些错误会从有限的数据量中产生欺骗性的模式。Kirkos和他的同事们注意到,决策树的准确率比神经网络低(73.6%),其II型错误率比神经网络高(25%)。

集成方法是为了解决过度拟合问题而发展起来的。它们包括AdaBoost和random forests,后者由一组弱分类器(如决策树)的加权集合组成。Li Bin和他的合著者应用集成方法对会计欺诈进行检测,与基于logistic回归的分类器相比,准确率提高了18%,II类错误减少了7%

支持向量机构成了另一类分类器。他们依赖于更多的理论基础比决策树或神经网络,并保持他们在样本外的准确性。

支持向量机分类器的鲁棒性使得它们能够被修改和适应不同的问题。例如,在会计舞弊的文献中,有一些有趣的应用,如Li和他的合著者,他们使用非线性核函数和支持向量机来达到比基准logistic模型高4%的精确度。

模糊逻辑采取了不同于经典逻辑的方法,在经典逻辑中,陈述要么是真要么是假。模糊逻辑算法允许数据点有不同程度的属于某一类。使用模糊逻辑会导致不精确的推理规则,在缺乏信息时尤其有用——这是会计欺诈应用的一个主要特点。

玛丽·简·勒纳德和她的同事进行的一项研究利用模糊逻辑方法,利用公开的金融和非金融数据来检测欺诈,准确率为76.7%。

统计模型用于解决简单的分类问题,并依赖于一类概率分布的假设。这些模型包括隐马尔可夫、线性判别分析、logistic回归、朴素贝叶斯和贝叶斯信念网络。

尽管logistic回归在会计舞弊研究中得到了广泛的应用(例如Beneish M-score和Dechow F-score),但也有其他的应用,如Kirkos和他的同事所探索的应用,其中公司从事舞弊会计行为的概率被建模为贝叶斯信念网络。在这种方法中,数据的不同属性的依赖关系在一个有向无环图中表示,一组节点的连接方式使得连接没有顺序并最终循环回起始节点。在Kirkos中,这种方法显示出最好的结果,优于决策树和神经网络。


机器学习在资产侵占侦查中的应用

在线交易的指数增长使支付处理成为实施欺诈的沃土。信用卡交易和自动清算所(ACH)交易非常容易被盗用资产,通常是通过网络钓鱼或恶意软件攻击进行的。ACH欺诈可以通过不充分的内部块、缺少过滤器和多重授权来教唆。

机器学习模型已经被用于信用卡授权,以实时识别潜在的欺诈交易。这通常是通过基于供应商的可信度和持卡人的购买行为以及时间和地点数据对交易进行评分来完成的。假警报的数量虽然在最初阶段相当可观,但随着越来越多的数据上线,以及越来越多的持卡人档案的建立,假警报的数量可以慢慢缩小。

Beneish的M-score和Dechow的F-score模型研究了激进会计选择的可能来源,而本福德定律和Zipf定律研究了数字和单词的自然分布(见图5)。通过结合使用这些方法,投资者可以针对潜在的操纵者建立保护措施。

然而,这些模型仍然可能漏掉可能出现在财务报表脚注中的一个正在展开的欺诈的线索,而且它们不能解释诸如管理层可信度之类的主观品质。这正是机器学习真正能发光的地方,因为它可以分析各种信息的巨大数据集,而不仅仅是财务数据。也许随着机器学习的进一步发展,猫不必再追老鼠的日子很快就会到来。


原文章来自WorldQuant网站,本文为原文章的中文翻译。本文仅用于交流学习使用,不得用于商业用途。如对相关著作人造成侵害,请立即联系译者及时删除。

原文链接:weareworldquant.com/en/


欢迎读者阅读以下相关文章:

头像
丢弃