数智工作坊第12期报告全文

发布时间:2024-09-18

数智工作坊第12期

智能体在经济学与法学中的

前沿成果和实践应用

9月14日,由国家治理大数据和人工智能创新平台和交叉科学研究院主办的第12期数智工作坊成功举行。本期工作坊以“智能体在经济学与法学中的前沿成果和实践应用”为主题,由国家治理大数据和人工智能创新平台工程师尹珺主讲。活动主题深入,引发热烈讨论。

微信图片_20240930145403.jpg

内容摘要

大语言模型智能体(LLM Agent)的研究近年来迅速发展,在交叉学科中的应用日益广泛,特别是在模仿人类决策的模拟器方面展现出了巨大的潜力和价值。大语言模型智能体凭借其高度灵活性和可定制性,为探索复杂系统动态、预测未来趋势以及评估政策效果提供了前所未有的工具。

本期分享聚焦于大语言模型智能体在经济学,社会学与法学领域的交叉研究。通过经济模拟器EconAgent,AI法庭Agent Court等实际应用案例,探讨了智能体作为模拟器的基本原理,展示了其在具体场景或任务中的开发实践。

报告全文

随着语言模型的发展,基于语言模型的自主代理(Agent)类应用也逐渐得到广泛关注。今天主要给大家分享一些大模型Agent作为社会模拟器的应用实例。目前应用的调研集中在经济学、社会学以及法学领域的相关模拟。

报告分为以下几点:首先简单介绍Agent的概念,然后探讨它在经济学、社会学和法学领域作为模拟器的大致思路,比如这个东西如何运转,有哪几个模块,最后我将结合实际案例,展示如何将这些技术落地应用,特别是在具体场景或任务中的开发实践,并说明在应用对接时所需的准备和支持。

微信图片_20240930145510.jpg

首先是大语言模型智能体的概念。其实智能体这一话题并不新鲜,它是由来已久的,经济学的同学应该对此比较熟悉。Agent是一个具备环境感知、决策制定和动作执行能力的自主算法系统。最早的智能体是基于规则的,随后是基于模型的。现在随着大语言模型的盛行,尤其是昨天OpenAI发布了新版本,每天都在迭代模型的能力。计算机科学家也在猜测,随着参数规模的增大,它会不会有一天变得无比强大。在这样的背景下,基于大模型的智能体是否也会变得更加强大?

接下来,我将主要介绍一下构建大模型智能体的四个模块:记忆组件、规划组件、执行组件,以及Profile模块。

微信图片_20240930145524.jpg

在不同任务中,大模型Agent基本遵循这样一个框架,其核心就是屏幕上展示的大语言模型。它承担着大脑的角色,负责思考和规划。围绕这个大模型,Agent还包含了左侧的记忆和角色组件,它可以由自己个性化设置角色。基于上下文中的信息,尤其是长期和短期记忆,Agent再来执行思考、规划以及做出相应的动作,就是Planning和Action。当这四个模块整合在一起时,Agent一方面可以通过工具获取外部信息以进一步思考和规划,且可以与外界进行交互。

总体而言,所有的Agent大概都由这四个模块组成,具备这四个能力即可以被视为一个具备智能的Agent。Agent大致可以分为两类:一类是完成具体的工作,另一类是用于模拟场景的模拟器。今天我们的讨论将主要集中在Agent作为模拟器的应用上。

微信图片_20240930145546.jpg

首先,我们来介绍一个比较感兴趣且已经实现的应用,即美国的经济社会模拟器,名为EconAgent框架。这个框架源于2024年ACL的优秀论文,通过Agent来模拟宏观经济。这类任务由来已久,经济学背景的同学对此应该更加熟悉,已有许多Baseline,例如基于模型的、基于规则的以及基于强化学习的等等。

今年这篇ACL文章则使用大模型来取代那些算法,来构造经济模拟的框架。它的主要目标是在宏观经济系统中,通过模拟个体的两种行为:工作和消费,来模拟整体的宏观经济涌现。下面我们结合图表,对照之前提到的几个模块,看一下大模型Agent是如何构建的,主要是怎样来定义它的机制。

微信图片_20240930145550.jpg

在构建过程中,这个机制中的Agent有几类,例如个体(如图中的黄色部分),负责做出个人决策;此外还有公司、政府(在右侧)以及银行等不同的角色。Profile 模块主要针对个人,每个Profile都被赋予了年龄、姓名和职业等属性。这些属性并不是凭空生成的,基于现实世界的画像分布,包括年龄、姓名、职业等,使得每个个体都具有独特的特征和背景,从而能够模拟真实世界中个体的多样性和复杂性

基于这两个东西之后,我们可以规划它们之间的互动机制。在系统构建中,个体需要做出两个决定,其中一个是它是否工作。如果决定工作,个体将通过工作获取收入。这一决策过程由大模型驱动,即个体通过与大模型交互,根据当前环境信息,经济环境中的信息及其变化趋势,来帮助个体决定是否要工作。这一点可能与经济学传统Simulation基于规则方法有所不同。

第二个是政府的征税,包括税重分配。这个就不是通过大模型对话来完成的,而是基于规则和公式来计算。论文的具体实现中参照了美国当时真实环境的数据。

第三部分是个体需要做的另一个决定:是否消费。同样是通过跟大模型的交互来完成的。交互也是刚才所说的,根据当前环境信息,经济环境中的信息及其变化趋势决定。

再然后就是第四部分,个体的工作带来生产供应,而消费行为会产生需求。在结合当前库存后,可以参考经济学中的供需平衡或不平衡带来消费市场、劳动力市场的动态变化,即商品价格以及工资变动等。经济学背景的同学对此应该比我们更加了解,这一部分是通过一系列公式和规则实现的。

第五部分,每年个体在银行储蓄得到利息,银行则根据Taylor Rule调整利率等,这也是基于规则的过程。在这里,个体就是做两个决定,工作和消费,并通过与大模型的两次交互完成这两个决定。

微信图片_20240930145554.jpg

除此之外跟大模型另外一个交互在反思。它需要对历史的个体以及宏观经济状况问一些关于反思的问题,得到关于个体和宏观情况的启示。在这里列举了一个关于反思的例子,可以看到个体能感知劳动市场与消费市场的变化。

微信图片_20240930145558.jpg

之前的模拟已经完成,接下来需要对其进行评估。考虑到推理的成本很高,以及需要跑20年模拟的历程,其实也很不容易。那么如何确定这个东西的价值和准确性呢?

评估方法是通过宏观的指标和规律去验证。一方面是将20年的数据画出,包括宏观经济指标如通胀率和GDP等,并将这些拟合数值与Baseline方法的你和数值结果进行对比,以检查是否吻合。另一方面是检验它是否满足经济学的一些交叉定律,例如菲利普斯曲线等。从这两个方面出发,通过定律的模拟,能够得出明确评估,判断这20年模拟的准确性,或者是否需要进行调整。

微信图片_20240930145601.jpg

突发事件干预有点类似于Case study。例如,从2018年开始模拟,首先运行一段时间,到2019年突发疫情分支分叉。在这里,可以对模型进行干预,将疫情的影响纳入考虑。具体来说,可以给模型一个Prompt,让它模拟疫情发生的情况。另一个模拟则是不提供疫情的Prompt,继续执行模拟。通过对比这两个模拟结果,可以发现从宏观角度来看,失业率的变化存在显著差异。在有疫情的情况下,失业率明显较高,这也是一个比较合理的结论。

微信图片_20240930145604.jpg

经济模拟系统除Demo外还有许多研究。例如按照Agent的数量来分类的情况。

微信图片_20240930145607.jpg

除了经济涌现的现象之外,桥接微观和宏观的桥梁,还有一些社会模拟的应用也非常有趣。从实验的角度来看,这些应用有一些相似。正如刚才提到的,通常利用微观层面的Memory和Profile来执行决策,从而模拟它所涌现的宏观社会学现象。在这方面已有不少相关的研究成果。例如,从传播学的角度来看,新闻发酵通常会呈现出双峰传播,或者模拟特定的社区场景,类似于《狼人杀》游戏中的情境,参与者需要决定是选择说真话还是说假话,是进行合作还是欺骗。另外一个是个体社会行为的模拟,相关的工作也比较多,大家可以针对特定的任务和兴趣自己找来探索一下。

微信图片_20240930145611.jpg

除了前面提到的经济学和社会学系统模拟之外,我们还实验了一个AI法庭的模拟工作。这项工作主要是模拟真实的法庭场景,具体来说,将6个Agent分别模拟为书记员、法官、原告、被告,以及原告和被告的律师,来还原法庭的实际情况。通过这个模拟系统,来驱动教育、案例分析以及法律研究。可能落到实地的是通过这样一个进化提升律师的经验和水平。这项工作是今年8月15日刚发布的,属于比较新的尝试。

如右边的流程图所示,我们先看黄色部分,法庭流程是由法官首先发言,接着原告和被告陈述案情,然后进入庭审阶段。庭审开始后,会进行一些初始化的工作,原告和被告的律师在法庭上进行辩论,最终得出案件的结果。

与之前提到的类似,大模型对整个过程进行反思,这是比较有价值的部分。这个反思基于真实的模拟过程,涵盖了三个方面:法条记忆、判案经验以及法庭辩论的技巧。在每轮模拟结束后模型都会进行反思,从而提升律师的经验和能力。最终,我们通过一个包含一千个民事判决的数据集,让两个律师在各自职责范围内进行辩论,从而不断积累实战经验。

微信图片_20240930145614.jpg

之所以选择这个场景,主要也是因为它相对容易评估,能够较为清晰地判断模拟结果的可靠性。评估主要可以分为两个方面,先不看CASE分析的话。自动评估是通过Agent模拟的方式,让两个律师处理一千个案件。接着,安排它们完成法律界的标准任务,其中选取了三类任务作为评估依据。通过这些任务,观察它们的能力是否得到了提升。实验数据表明能力确实有明显增强。例如,之前在回答法条图谱相关问题时,它们可能会答非所问,但经过处理一千个案例后,回答的准确性提高了。与此同时,推理能力也在这一过程中得到了明显提升。

此外,还有一些人工评估的方式,在这个实验中,从知识、能力和逻辑三个维度为它们打分。通过打分分析,可以看出经过改进后的律师在各方面表现更加卓越。

至于CASE分析,可以通过法条图谱记忆的例子来对比说明。在它没有经过一千场模拟官司之前,当我们询问大模型相关法律问题时,它是能够给出一些答案,但在经过一千场官司的模拟和训练,知识储备和推理能力都有一定增强之后,发现它确实能够提供更为准确的法条内容。

微信图片_20240930145617.jpg

我们还想简要介绍一下开发方面的内容。之前在工作坊中也有老师介绍了工程开发,大家在开始时往往会首先考虑各种开发框架。的确,开发框架非常重要,尤其是在处理复杂系统模拟时,可以提供很多便利和优势。但是以刚才介绍的法条模拟为例,它实际上没有使用任何框架,因为涉及的Agent数量较少,所以框架的使用并不是绝对必要的。如果项目规模较大,我们可以借助像LongChain这样的工具,这方面的资料也比较多。其次是Agent访问工具的方式,这里可以跟工具有直接的交互。另外,还有数据的交互方式。刚才提到的案例中跟数据没有太多交互方式,但如果系统需要从Memory中进行复杂的交互,这里还需要涉及RAG或Graph RAG的提升。最关键的是,针对具体应用场景时,我们应当关注如何设计对话,如何制造机制,让它完成具体的任务。

微信图片_20240930145620.jpg

除了刚才所说的工作介绍之外,也想为大家展示一些计算机专业同学的工作。他们可能在之前提到的四个模块中都有所提升,比如如何优化Profile,如何更有效地设计Memory的长短期记忆机制。

在Planning方面,简单的流程图可能无法满足复杂任务的需求,还可以探索更复杂的规划方式。至于Action部分,Action可以调用外部工具,并且不一定局限于闭环环境。比如,系统可以通过与开放搜索引擎的交互来做角色,或在执行Action时还需要整合视觉信息作为输入,或者结合其他必要的知识来做出决定。我这里只列举了几个工作,实际上内容相当广泛。

我们演示了一些具体场景下的应用,比如在经济学、社会学和法学领域的案例。目前展示的可能是一些相对简单的应用,但随着计算机专业能力的提升,未来还可以支持更加复杂的机制和应用场景。

微信图片_20240930145623.jpg

这是一个范式的总结,也是借鉴了文老师PPT中的内容。第一个时代是机器学习时代,随后大模型的兴起使得我们能够通过输入提示词,借助模型的强大能力完成一些任务。现在我们想说的是如何更好地拥抱智能体时代,相应的范式也在发生转变。不是说只给一个提示词,而是需要把机制提炼出来。通过正确的实验和不断的试错,以及持续的反思和改进,来实现智能的涌现。

微信图片_20240930145626.jpg

刚才提到这些研究其实早已有之,大模型和智能体的研究也是如此。比如古文经典中所说的“博学之、审问之、慎思之、明辨之、笃行之”,都可以对应到具体的计算机处理方式。例如,“博学之”是不是说这个数据量足够大就可以了;“审问之”是不是可以对应设计高效的提示工程;“慎思之”在思索的时候,是不是可以借助思维链或思维框架;“明辨之”则是处理Action时,通过价值观对齐和个人或历史记忆的检索,结合先进的Rerank技术来确保结果的准确性;最后,“笃行之”可以理解为借助外部工具或技术实现与现实世界的有效交互。

微信图片_20240930145629.jpg

最后谈一下数据集领域和我们想做的一些事情。例如,刚才提到的大模型Agent模拟,除了法律部分是使用中文法条的判决书分析之外,还是在刷国外数据集,比如推荐领域的Movielens数据集,第一个介绍的美国经济社会模拟,也是基于美国社会的超参等来实现的。

我们就在思考:是否可以自己构建一个数据集,或者在自己的任务上有一些宏观涌现的发现?在数据方面,也希望能够有更加有价值的数据,基于这些数据开展更有意义的应用或研究。最后是评估。评估也需要提前思考,如何评估我们一系列模拟的有效性。包括上面讲的工作,我们都很欢迎经济学或者社会学的同学与我们交流,进行一些研究和应用。最后,这里列出了一些我们的联系方式以及常规活动,欢迎大家参与。

微信图片_20240930145632.jpg

这是用到的一些参考文献,谢谢!

微信图片_20240930145635.jpg


邮箱:brain@ruc.edu.cn
官网:http://www.brain.ruc.edu.cn

地址:中国人民大学公共教学一楼三层1301

扫码关注