工具推荐|新一代社会模拟平台玉兰-万象
发布时间:2025-09-10遇见「玉兰 - 万象」:在大模型时代,重构社会模拟的能力边界,持续推动社会科学的实验智慧
社会科学在推动人类文明进步的进程中始终扮演着不可或缺的角色。它通过深刻洞察人类行为、社会结构和文化动态,不仅帮助我们理解当下,也为预测未来提供了理论支持。传统的社会模拟方法大多基于事先人工设定的规则,难以真实还原人类认知和语言交互的复杂性。 随着大语言模型(LLM)的快速发展,人们发现语言是人类智能的重要载体,通过大量文本语料的训练,大模型可以在很多任务上呈现出类人的智能,这为构建更真实和语言驱动的社会模拟平台提供了全新思路。为此,人大高瓴人工智能学院研发团队推出了新一代大模型社会模拟平台 —— 玉兰-万象(YuLan-OneSim)。
开源部署网站:http://111.6.167.248:5173/
统一入口网站:https://ruc-gsai.github.io/YuLan-OneSim/
其他参考信息:
玉兰万象Github地址:https://github.com/RUC-GSAI/YuLan-OneSim
玉兰万象论文链接:https://arxiv.org/pdf/2505.07581
玉兰万象中文介绍:https://mp.weixin.qq.com/s/eWBpX1InQbB6oLZf5QWMiA
玉兰万象视频Demo:https://www.bilibili.com/video/BV1DVECzMEaA?t=33.2
玉兰万象详细文档:https://ruc-gsai.github.io/YuLan-OneSim/docs/overview/introduction
玉兰万象安装教程:https://www.bilibili.com/video/BV1JJKoztEc9/?share_source=copy_web&vd_source=8400639fd585f4c18394d40a3dcc0743
玉兰万象docker链接(安装docker可以免安装环境):https://hub.docker.com/repository/docker/ptss/yulan-onesim/general
基于大模型智能体的社会模拟平台发展历程回顾:首先,我们回顾基于大模型智能体构建社会模拟平台的发展历程。具体而言,该领域的发展大致可以划分为两个阶段:在第一个阶段(对应上图中的黄色区域),研究人员主要集中于特定场景的模拟环境构建,此时的智能体数量通常较少,模拟规模有限。随着研究的深入,人们逐渐意识到这种方法在通用性和规模化方面存在不足。因此,在第二个阶段(对应上图中的紫色区域),研究人员提出了一系列更具通用性的社会模拟平台,支持更大规模的智能体模拟,数量甚至达到了万级乃至十万级别。
在大模型技术不断进步的背景下,玉兰-万象的诞生旨在推动该领域迈向全新的阶段。在这一阶段,模拟场景的代码将能够自动生成,研究人员无需编写大量代码即可构建复杂的社会模拟环境。同时,平台将具备自动完成社会科学完整科研闭环的能力,大幅降低研究成本,帮助科研人员更高效、更专注地开展社会科学研究。
玉兰-万象的五大核心亮点:
1.自动化场景构建用户只需通过自然语言与系统交互,即可逐步描述和细化模拟场景,系统将自动完成代码生成,大幅降低编程门槛。
2.丰富的默认场景库玉兰-万象内置50个模拟场景,覆盖8大社会科学领域(经济学、社会学、政治学、心理学、管理、公共健康、法律与传播),均可直接运行或自定义扩展。
3.可融合反馈的模拟机制针对传统模拟器难以根据反馈优化的问题,研发团队设计了一套“验证者-推理者-修正者-调参者”多智能体反馈融合框架,可以基于系统或人类反馈对大模型进行微调改进。
4.支持十万级别智能体的大规模模拟平台基于响应式框架进行构建,并支持分布式架构,可同时模拟多达100,000个智能体,满足复杂社会系统建模需求。
5.内置AI社会研究员基于以上设计,平台内置了一个AI社会研究员,用户只需输入一个研究问题,AI研究员便可自动分析、构建模拟场景、运行模拟器、分析结果并生成完整科研报告,实现了“想法提出-场景模拟-结果分析-报告生成”的完整科研闭环。
四大子系统构建玉兰-万象的系统基座:
玉兰-万象的完整架构图
1.场景自动构建子系统:将自然语言需求自动转化为可执行的模拟代码。
2.模拟执行子系统:支持高并发执行与灵活干预,具备强大的可视化监控能力。
3.反馈驱动的模拟演化子系统:结合人类与系统反馈,不断优化模拟输出质量。
4.AI社会研究员子系统:自动化完成整个社会科学的科研流程,实现从问题生成到场景模拟,再到结果分析,最后到报告生成的全AI化。
实验验证:
我们基于玉兰-万象进行了大量实验,全面验证了其在模拟精度、效率和扩展性方面的优势。具体评测结果如下所示:
1.自动场景生成框架评测
我们对玉兰-万象在自动场景生成方面的能力进行了全方位评测。在效率方面,我们的模拟器可以平均每秒生成358个tokens。在效果方面,我们的模拟器生成智能体行为图和代码质量打分均超过4分(打分标准见论文),显示出其在自动场景生成方面的强大潜力。同时,我们观察到,玉兰-万象生成的错误大多数属于逻辑错误,包括值访问错误、指令与动作不匹配、错误的数值赋值以及类型检查疏漏等问题。这些错误通常可以通过标准的调试技术轻松修复,所需的人工干预较少。然而,这些错误的普遍存在表明,如果在逻辑验证方面进行有针对性的改进,将能显著提升整体代码生成过程的可靠性。此外,虽然模拟器生成的结果中也存在语法错误和健壮性问题,但它们仅占总错误的一小部分。尽管当前的结果令人鼓舞,我们的实现仍然在处理更复杂的逻辑依赖关系和边缘情况时存在一定局限性。为了解决这些挑战,我们计划在后续工作中引入更先进的错误检测与修复机制,以进一步减少人工代码校正的需求。
2.模拟可信度评测
对于可信度的评测,我们从两个角度开展试验:(1)社会理论验证——考察已有的经典社会科学理论能否在我们的模拟环境中得到验证;(2)真实世界数据对齐——评估模拟结果与真实世界观测数据之间的一致程度。在实验(1)中,我们基于Axelrod文化传播场景展开实验。可以看到,随着模拟的推进,不同的文化边界逐渐显现。在每个文化区域内,邻近的智能体表现出高度相似性(以较深的连接颜色表示),而区域之间的边界则逐渐清晰可见。该可视化结果有效体现了 Axelrod 理论的核心观点——局部互动促成了区域内部的文化同质性,而整体范围内的文化多样性仍得以保留。同时,我们也对Axelrod 理论的形成过程进行了动态和量化分析。如上图所示,在初始阶段,社区的局部收敛度逐渐上升,而全局极化度持续下降,表明智能体开始互动并形成早期的文化聚类。大约在第 15 轮时,出现一个拐点,此后局部收敛度继续上升,而全局极化度趋于稳定。这一趋势表明,局部区域内部变得越来越同质化,但不同文化群体之间的边界仍然清晰
以上这些实验结果清晰地展现了Axelrod理论的核心——局部收敛与全局极化共存的现象。玉兰-万象不仅成功复现了这一理论预期,还进一步提供了对这一过程的量化刻画,为深入理解文化传播在时间演化中的规律提供了更具洞察力的支持。
在实验(2)中,我们关注模拟器产生的数据是否能和真实世界数据一致,具体来讲,我们在巴西房地产数据上进行实验。图 8 展示了我们模拟的房价分布与巴西真实房价分布的对比结果。模拟结果成功复现了真实数据中的多个关键特征,尤其是在主峰和次峰位置上的多峰分布模式,与真实分布中的归一化值高度吻合。在低价区间(0.05–0.25)内,模拟数据与真实数据的高度一致性表明,我们的模型能够有效捕捉到最常见住房市场的核心动态。此外,模拟结果也较好地复现了住房市场常见的长尾分布特征。然而,在中间价格区间(0.45–0.55),模拟结果相比真实数据略有低估。我们推测这种差异主要来源于对房价形成机制的简化建模,未能全面考虑诸如社区宜居性、基础设施质量以及历史估值等复杂影响因素。尽管存在一定偏差,整体结果表明:玉兰-万象能以较高精度逼近现实世界中的经济分布特征,验证了其在社会科学研究应用中的潜力和实用性。
3.模拟效率评测
在效率评测方面,我们主要关注玉兰-万象在大规模模拟时的平均每轮的花费时长和处理的事件数目。我们在Axelrod文化传播场景中部署了 10 万个智能体,从结果中,我们可以看到:玉兰-万象能够以平均约 6,026 秒每轮的速度,成功执行包含 10 万智能体的大规模模拟任务。该性能使得大规模社会模拟在实践中成为可能,为深入研究以往受限于计算能力的人口级社会动态提供了全新机会。此外,我们的模拟器平均每秒可处理 49.14 个事件,每轮可完成超过 29 万个复杂社会交互事件的模拟任务,充分展示了我们所设计的分布式架构在效率与可扩展性方面的强大优势,为大规模智能体建模提供了坚实支撑。
4. AI社会研究员评测
在AI社会研究员的评测方面,我们主要关注模拟场景ODD协议和最终分析报告的生成质量。从上面的结果中,我们可以看到:在模拟场景设计方面,AI 社会研究员在各项指标上均表现出色,平均总得分达到 4.13(满分 5 分)。尤其值得一提的是,在可行性维度表现尤为突出(平均得分 4.88),这表明 AI 社会研究员能够有效地将抽象的研究问题转化为可执行的模拟方案。同时,在相关性方面也表现良好(平均得分 4.25),这可以确保生成的模拟场景准确贴合用户提出的研究主题。
在生成报告方面,AI 社会研究员在结构组织性(平均 4.00 分)和内容完整性与准确性(平均 3.63 分)方面表现良好,说明其能够将分析结果合理组织为逻辑清晰、内容扎实的技术报告。其中表现最优的报告为“拍卖市场动态(经济学领域)”和“法庭审判模拟(法律领域)”,两者总分均为 4.0。不过,目前的 AI 社会研究员也存在改进空间,主要体现在洞察力(3.25)和实用性(3.00)两个维度。尽管 AI 社会研究员能够胜任数据分析与结果汇报,但在从模拟结果中挖掘更深入的研究洞察、提出更具操作性的结论建议方面仍有待提升。例如,在“劳动力市场匹配过程”这一场景下,该报告在实用性上的得分仅为 2.0,凸显了当前模型在部分领域应用中的局限性。
未来愿景:
让玉兰-万象成为社会模拟的“操作系统”在未来,我们希望玉兰-万象能成为社会模拟领域的“操作系统”,在此之上,能够不断演化出各类“应用软件”,例如更多的模拟场景,更丰富的系统功能和更完善的反馈增强机制等。具体来讲,我们希望玉兰-万象可以:(1)成为社会科学研究者的“实验场”:每一位科研人员或相关从业人员都可以在 玉兰-万象上低门槛地构建和运行自己的模拟场景,实现从想法提出到报告生成的一体化科研闭环。(2)打造跨界协作的创新社区:我们计划构建 玉兰-万象社区(微信群见上方),支持功能完善、开源共享和学术交流,让社会科学、计算机科学、人工智能等不同背景的研究者在此交汇,共同推动人类对社会规律的认知跃迁。感谢阿里通义AgentScope团队!