nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />
随着计算社会科学这一新研究范式的出现,研究者可以依托大数据以及机器学习等新方法对人类行为和社会现象进行全景式描述,甚至对未来的走势进行预测。但反观用于“解释”世界的因果推断技术,却因其固有的局限受到质疑,在学界出现了一种低估甚至否定因果推断价值的观点倾向。从方法论层面看,针对因果推断的批评有其合理性,传统的因果推断方法在反事实框架构建、遗漏变量偏差、测量偏差三方面存在明显缺陷,因而在对现象之间的联系作出准确估计时会存在问题。不过,随着人工智能(AI)时代的来临,大语言模型这一突破性的AI技术可以通过三种路径来弥补传统因果推断方法的既有缺陷,从而为研究者解释世界提供强大助力。
路径一:通过构建虚拟实验对象完善反事实框架
因果推断建立在反事实框架之上。在反事实框架中,个体具有一个反事实结果,即发生/不发生某个干预或处理产生的潜在结果。研究者通过对比个体在干预和未干预状态下的结果来作出因果推断。但在真实世界中,研究者无法同时观测到上述两种结果,这使得反事实框架难以建立,从而降低因果推断的效力。为了解决这一难题,研究者通常将控制组的观测结果近似等同于处理组的反事实结果。显然,这需要假定控制组的观测结果与处理组的反事实结果之间的差异可被忽略,即满足可忽略性假设。在实际研究中,实验法能通过随机分配满足可忽略性假设,但在研究伦理和实验成本的约束下,实验的干预和边界均会受到限制。
大语言模型相比于传统因果推断方法的最大优势是可以构建虚拟实验对象,这使得研究者可以完善反事实框架,进而作出更加精准的因果推断。相关研究表明,大语言模型所构建的虚拟实验对象不仅可以复现行为经济学和心理学的经典研究,而且能够通过任意设定实验对象的特征进行拓展研究。这不仅节省了开展实验所需的经济和时间成本,而且避免了以真实个体为对象开展实验所涉及的伦理规范问题。更为重要的是,针对敏感群体开展的研究通常面临着接触难度大、社会期望偏差等难题。而大语言模型则可以通过海量文本数据训练来模拟敏感群体的认知、情感和行为,进而拓展实验边界。
路径二:通过丰富研究变量来纠正遗漏变量偏差
传统研究方法对观察数据满足可忽略性假设的要求,通常也意味着研究潜藏着遗漏变量偏差、选择偏差、联立性偏差以及测量偏差四种内生性问题。其中,遗漏变量偏差可以被划分为遗漏可观测变量偏差和遗漏不可观测变量偏差。大语言模型可以从以下两个方面纠正遗漏可观测变量带来的偏差,进而提高因果推断效力。
一方面,大语言模型可以从文本数据中精确提取传统文本分析方法难以获取的变量。传统文本分析方法通常被划分为词典法和机器学习法。具体而言,词典法利用预先设定的词典计算文本中目标词频,进而对比目标词频差异完成分类。机器学习法则借助人工标注的数据集训练模型,以使模型完成分类。然而,上述两种方法均存在一定局限:前者过于依赖预先设定的词典,后者则难以完全排除数据标注员的主观偏见。这使得传统文本分析方法难以精准提取深层次的文本信息,尤其在提取观念、态度等主观变量时,局限更加明显。与之相比,大语言模型能够直接分析文本全文、考虑文本情境以及推理文本意图,进而精确提取出潜在变量。此外,大语言模型从长文本数据中提取变量的表现同样优秀。例如,有学者运用ChatGPT大语言模型来分析社交媒体用户的发言以及更新状态,并从中提取关于人格特质的信息,由此可以准确推断用户的心理倾向。
另一方面,大语言模型可以从语言、图片以及视频等非文本的多模态数据中提取变量。其中,图片数据得到医学领域的重点关注。国外学者发现,大语言模型在通过病理报告预训练后能够解读病理学图像,进而提取肿瘤位置、等级以及发展阶段等信息,并且解读的正确率超过87%。当然,也有研究发现,不同类型的大语言模型在提取病征时的准确率存在差异,需要研究者有所甄别。
路径三:通过优化数据处理过程来降低测量偏差
测量偏差是造成因果推断失效的另一个原因。测量偏差是指变量的观测值与真实值之间的偏差。当因变量存在测量偏差时,系数估计值可能会不显著,从而降低因果推断的有效性。而当自变量存在测量偏差时,因果推断的无偏性会受到影响,即系数估计值偏离真实值。优化数据处理是大语言模型的重要功能,它可以从三个方面来降低测量偏差。
首先,大语言模型能够提高分词的正确率。传统的分词工具依赖人工编制的词典,难以识别所有的专业术语。而大语言模型依托庞大的训练数据构建了覆盖全领域知识库,能够正确提取出不同领域的专业术语,进而降低测量偏差。
其次,大语言模型可以提高实体匹配的准确率。文本数据普遍存在多国语言混杂等对同一实体的多样化表述。这种多样化表述可能会产生偏差,进而影响主题分类的准确性。研究表明,大语言模型能够捕捉到相关的多国语言信息,统一这些表述,从而降低测量偏差。
最后,大语言模型能够通过上下文分析和概率预测,准确纠正拼写错误,确保文本分类的准确性。
需要说明的是,现阶段的大语言模型仍然无法在根本上克服因果推断的内在局限。这是因为大语言模型存在可重复性差和知识截止两方面的技术缺陷:前者是指大语言模型采用的随机采样机制可能导致新的输出结果与原有结果不一致;后者是指大语言模型的训练数据存在截止日期,这意味其可能无法精准识别新兴领域的专业术语。不过,上述缺陷也为改进大语言模型提供了明确指引。而且,随着算力的不断增强以及算法的不断更新,大语言模型将以指数级速度进行迭代,其既有的技术缺陷有望得到弥补,从而可以为因果推断提供更强大的助力。
作者系哈尔滨工程大学人文社会科学学院教授
来源:中国社会科学报
责任编辑:李文珍
新媒体编辑:张雨楠
如需交流可联系我们