作者:EVAN ARMSTRONG. 编译:Cointime.com QD
尝试使用总账
会计师使用人工智能由来已久,只是要看你给人工智能冠以什么技术的名称。大型会计师事务所有时会使用机器学习模型对风险进行分类。不过,由于 GPT-4 和 Claude 等大型语言模型(LLM)仍相对较新,这些技术尚未广泛融入审计师或会计师的工作流程。
当我说"我想用终结者机器人取代我的会计师"时,我正在寻找一种使用 LLM 自动完成会计师通常要做的工作的方法。
我的Skynet之旅开始得很简单。
我把 Every 公司的总账——一种列出一个时期内所有借贷的电子表格,上传到 ChatGPT。我的目标是运行一系列审计公司会做的测试:比如查找奇怪的交易、检查业务的健康状况,诸如此类。虽然这些测试比较抽象,但它们都是一些小的分析片段,可以让我们对企业的健康状况有一个整体的了解。
CSV 文件上传后,系统就开始工作。它意识到这个 CSV 文件是一个总账,于是编写了五个代码块,使它自己可以读取。
它对数据进行了分类,并在约 10 秒钟内准备好让我向它提问。相比之下,会计师通常需要 24 小时才能收到电子邮件。
接下来,我让人工智能进行一些审计员会做的小测试。首先,我要求它创建一个图表,显示每周的交易量。审计师会将这一分析作为简单的风险测试来做;如果有一周的交易量异常高,他们就会想进一步检查。
大约 10 秒钟的时间,我就绘制出了一张图表,这比财务专业人员使用数据透视表和图表工具绘制图表的速度还要快。
很酷,但并不惊人,让我们再进一步。
接下来,我决定测试一下它的知识。审计师/会计师的职责是确定企业的安全程度。为此,他们通常会使用酸性试验比率之类的评估方法,该方法可以衡量公司应付意外账单的速度。关键是你不能用总账来衡量这个比率。它需要资产负债表,因为总账无法告诉你支付账单所需的资产流动性。值得庆幸的是,人工智能以优异的成绩通过了突击测验。
它意识到不能在总账上进行这项测试,而需要资产负债表。如果我们真的要进行这项测试,我更倾向于使用稍有不同的公式版本,但它还是把重要的事情做对了。(请我们的投资者注意,不要惊慌,我刚刚亲自运行了这个公式,我们还没有破产)。
接下来,我将尝试人工智能能对账本做的事情——数据质量检查。我试着像对一个正常人那样对它说话,问:"哟,数据好吗?"它给出了五种不同的数据测试方法。由于隐私原因,前四种我不能展示。不过,每种情况下的分析都是正确的。对于那些有心人来说,我们已经完成了六项审计员会用人工智能自动完成的任务,但直到最后一次数据测试,我才在实验中发现了第一个明显的错误。它发现了13个"与平均值相差3个标准差以上 "的异常值。
我让它列出这13个原因。实际上没有一个是异常值,它们都是列或行的总和,系统认为是一笔开支。简而言之,人工智能被格式化挫败了。
系统搞砸了,不是因为数据,而是因为它对数据的标注方式感到困惑。这是世界上同时最聪明和最愚蠢的实习生。你必须盯紧它。我们在制作电子表格时,经常会做些让人更容易读懂的事情,比如去掉网格线或给重要数字加粗。如果要在产品中实现这一点,文件就必须更易于机器阅读。难能可贵的是,尽管这些数据显然不是为人工智能准备的,但系统却能做到这一点。
我让人工智能知道它犯错了,然后它道了歉,然后我们一起通过直接编辑工作表并重新上传来解决这个问题。
然后,我又把它弄得一团糟。我在同一次聊天中上传了我们的损益表,并要求 ChatGPT 通过比较交易级数据和月度汇总业绩来进行对账。
事情分崩离析
好消息是:人工智能可以同时对多个文件进行分析。它能够成功地将分类账中的每月支出与损益表进行比较。坏消息是:结果是错误的。
我又一次遇到了格式错误。只用一张电子表格,人工智能就很难解决格式问题。如果添加两个格式风格迥异的电子表格,系统就会出问题。我试着让它把文件重新格式化为它能读取的格式,但错误开始不断叠加。根据我与黑客的讨论,我认为这与行的标题和列的标题有关,但这还需要进一步实验。Code Interpreter 可以轻松完成单个文件的分析,但当需要检查的文件越多时,它就会越吃力。
我仍然坚持我在导言中的说法: 我认为人工智能可以取代一部分知识工作者。这些都是很容易解决的问题。重新设计总账和损益表,使其具有相同的格式,使用 Stripe API 将其加载到数据库中,然后就能获得全自动会计师的好处。
然后,你还可以使用Code Interpreter在所有这些基础上进行财务分析,如现金流贴现等,现在你就拥有了一个自动化的财务部门。它不会完成所有工作,但能帮你完成 90% 的工作。而剩下的 10%工作看起来更像是数据工程师的工作,而不是财务分析师的工作。
坦白地说,这是一个价值 500 亿美元的机会。拥有该产品的公司将有机会成为会计和财务领域的主导工具。它可以打败 QuickBooks 或 Oracle。应该有人来做这件事——技术就在眼前。
关键问题在于 OpenAI 如何公开Code Interpreter。如果它只是 ChatGPT 上的一个插件,初创公司就不必费心了。但如果该公司通过应用程序接口(API)将其公开,那就真的有可能造成颠覆。初创公司可以围绕销售数据的管道化和格式化开展大量工作。添加多人游戏或单点登录等功能足以证明初创公司的存在价值。作为一个不讨厌自己生活的人,我不会销售 B2B 软件,所以请随意使用这个想法(请给我寄一张顾问支票)。
这是一个很酷的实验,但我认为还有更大的启示。
也许未来比你想象的更奇怪
构建人工智能的一大挑战是了解利润池的累积情况。
在这次实验之前,我一直认为,价值将主要归属于将人工智能功能添加到现有工作流程或专有数据集中的现有公司。到目前为止,事实也证明了这一点。在大规模人工智能领域,微软是当之无愧的领导者,而且该公司也没有放慢脚步的迹象。
不过,这次总账练习的意义远不止会计。它让我看到了人工智能将如何颠覆整个生产力世界。人工智能有可能从根本上重新定义工作流程,以至于现有企业无法过渡到这个新的未来。初创企业真的有机会追赶巨人。
开玩笑说,我是个白痴,我不懂技术,靠写论文为生。尽管如此,我还是能够将我们审计员的大部分工作自动化。如果一个有才能的团队将其产品化,会发生什么呢?
所有的生产力工作都是将数据输入并转化为输出。Code Interpreter 与之前的人工智能系统相比有了很大改进,因为它的输入从散文变成了原始数据。该工具是思维本身的一个抽象层。它是一个推理工具,一个思考工具,而不是一个金融工具。在发布公告中,OpenAI 甚至没有提到金融用例!我们有太多机会重塑我们的工作。Code Interpreter意味着你甚至不需要访问高级 API 或数据库。如果 OpenAI 决定使用它,我们只需要一个命令栏和一个文件。
在过去的一年里,我曾多次听说过人工智能重塑劳动这一想法。但我第一次通过这个工具看到了它的实现。它并非没有缺陷或问题,但它正在到来。令人兴奋的、可怕的、恐怖的、振奋的、美妙的、可怕的是,这只是一个不到六个月的阿尔法产品。下一版模型会怎样?或者其他公司会推出什么产品?
这不是一个遥远的问题,而是一个 18 个月后要面对的问题。
在过去的六个月里,OpenAI 最大的竞争对手 Anthropic 泄露了一份招股说明书,这是最受关注的新闻之一。报道的版本称,该公司想要10亿美元来建造 "Claude-Next",它将比 GPT-4 强大10倍。我已经从多个消息来源证实,该方案的其他版本声称比 GPT-4 提高了50倍。
带着这个想法继续,让它沉淀、发芽。一个比Code Interpreter智能50倍的系统对知识劳动意味着什么?我听说OpenAI正在讨论类似的扩展能力。
谁知道这家公司能否实现,但你能想象两年后我们能得到比现在好50倍的模型吗?是的,这些都是宣传广告牌上的说法,完全不可靠,但如果他们是对的,会发生什么呢?即使是瘪瘪的10倍改进模型,也会带来一个难以想象的世界。
这将意味着知识工作的全面重塑。这将意味着初创企业有机会打败巨头。正如Anthropic公司在其宣传材料中所说:"这些模型可能会使大部分经济开始自动化。
这个实验让我看到了未来的曙光,希望你已经准备好了。
所有评论