学术活动

学术活动

news

数字人文与研究方法问题
  • 作者:成晓雨 王晨光

  • 发布时间:2019年11月08日 23:34

澳门科技大学人文艺术学院院长、教授
张志庆

尊敬的曾繁仁教授,胡智锋会长,老师们同学们,非常感谢大会邀请,非常荣幸有这样一个机会,与各位做这样一个交流,我发言的题目是《数字人文与研究方法问题》。我的发言是关于研究方法的,因此也是有关于研究的学术性的问题。我认为这个问题是非常重要的。这个问题的引起呢是8月份时,我在中国作协机关报《文艺报》上看到的一篇论文,论文占据了这个报纸的几乎是整版,这个论文是用量化的研究方法,研究新中国70年中国当代文学的世界影响,包括了小说,还有改编的电影等等。它的结论是70年间,世界影响最大的10部中国文学作品,第一部为《白毛女》,第二部作品为《林海雪原》,第三部作品为《青春之歌》,一共列出了10部。这让我联想到了目前研究的一些现象,今年是新中国成立70周年,所以各个领域,包括电影在内,有很多回顾式的、总结式的(内容、活动),我们今天大会的主题“新中国 新时代:影视的历程与图景”也是这样。70年,研究的样本量是非常巨大的,所以有的学者就采用了量化研究的方法。
      在人文学科采用量化研究的方法,是可行的。应用得当,也是行之有效的。但是,首先我们必须弄明白,什么是量化研究,如何进行量化研究,因此今天我想通过这样一个案例,就是《文艺报》上这篇文章,来与大家讨论这个问题。
      这篇文章的题目叫《传播学视野下的中国当代文学70年世界影响》,这篇研究说是“通过一些定量数据获得有效验证的”,“评估中国文学70年的世界影响,借用传播学效果研究的理论框架,需要三个层面的理论探索:传播范围的大小,专业研究、评价的有无,读者反馈的多寡”,就从这三个方面,接下来,论文里分别罗列了传播范围大小的一些数据,评价的一些数据,读者反馈的情况。作者把它称之为传播学的效果研究。那么这样一种研究是否是传播学的效果研究呢?得出来的数据和结论是否能够有效论证呢?
      我们要从什么叫数据人文这样一个角度说起。众所周知,数据人文最早是从人文计算演变来的。人文计算是1949年,一个标志性事件,计算机诞生不久,意大利一个神父叫罗伯特·布萨,他和IBM合作,当时刚刚有计算机,做什么呢?要对托马斯·阿奎那,意大利的一个神父,建立一个数据库,或者说建立一个索引。大家都知道,托马斯·阿奎那的一部《神学大全》,一共一千六百多万字,里面运用了大量的拉丁文。布萨神父想要对这样的著作进行使用拉丁文词汇的索引。布萨建立了一个团队,团队最多的时候达到60人,用了将近30年的时间,从1949年开始,在1980年才完成了56卷的托马斯·阿奎那词汇索引。这是一个数据库。随着互联网的建成和发展,就进入了数据人文的阶段。最初的时候是由几个大学教授来做,到本世纪初的时候,学界开始做大量的这方面的研究,使用这方面的数据。一个标志性的事件是,2014年英国布莱克威尔出版社把他们先前出版的《人文计算年鉴》改为了《数据人文》,后来,数据人文作为一个学科也进入了大学,包括现在的哈佛大学,英国伦敦大学国王学院,加拿大的多伦多大学,都成立了这样的数据人文的学科,里边涉及了本科硕士甚至博士课程。这是人文计算到数据人文的发展。
      关于数字人文,到底是一种研究方法,还是研究范畴,或者是一种学科,学术界内部在表述上有所不同。时间关系不展开讲。但不管将它作为一种研究方法,还是研究范畴,或者是学科,数据人文应该具备以下三个特征。第一,是建立在数据库基础上。一定是基于大数据,通过资料库进行文本挖掘,也就是说从海量的非结构化的资料当中按照研究目的去进行资料挖掘,试图发现某种模式,某种趋势,或者某种规律性的现象。尤其当我们的研究对象是,比如说70年的影视发展之类的文本的时候。这个研究应该是建立在这样的资料库的基础上的,而且这个资料库应该不仅仅是具有检索功能,而且资料是进行了电子化的。第二点是文本的可视化,文本的可视化不是简单的在论文当中放一些图片或者影像资料。数据人文的可视化是指我们把文字的资料、图片或者影像资料,都变成一种图形、图表或者图像来进行表示。比如通过词频建立词频图,或者建立线性的趋势图、柱状图等等。第三点是跨学科。在古代,知识是没有严格学科划分的。学科划分是近现代的事情。17到18世纪,自然科学首先从学科当中划分出去,到19世纪末,社会科学形成,剩下人文学科,那么随着计算机的出现,数据人文就是跨学科,这种跨学科,既是社会科学与人文学科之间的跨越。也是文科与理科的跨越。也就是不能仅仅只用原来人文学科的思维和方法去做数据人文的研究。
      最后一点,关于数据人文研究方法的必要性,我想这是十分必要的,它是对原有的人文科学研究方法的必要补充。不是说放弃原来的人文学科研究的方法,它是对原有人文学科研究方法的补充,这个补充可以使研究的论据更加充分,使研究更加具有实证性。另外也可以使我们的研究者更加注重论证与结论之间的一致性。因为量化研究,要去进行检测,无论是信度、还是效度,要去检测,使得论证过程与结论更具有一致性,从而避免一些主观臆断的、情绪化的推论和判断。尤其是当我们的研究对象,在时间上是很长的时候,比如70年,在范围上很广的时候,比如说世界影响。当我们对大数据进行研究的时候,很多主观臆断的、情绪化的宏大叙事。有些意义都很极端。
      传播学的效果研究可以用量化的,也可以用质化的,量化可以用实验法,也可以用调查,质化的可以用参与观察、深度访谈,或者话语分析的方法。不管用质化的还是量化的方法,都有一定的要求。如果用量化研究的话,要有可量化的指标。从步骤上来讲,首先要预设,然后确定变量,因变量和自变量。然后获取样本,一般量化研究要通过用概率抽样的方法来获取样本。获取样本之后,再分析数据,建立变量之间的关系。然后进行检测,有必要的话,还要进行前测和后测两次检测,检测效度、信度。在这个基础上才可以要求结论的科学性。质性研究也是这样,尽管在获取样本的手段上可能不一样,可能具备目的性,首先要提出研究问题,获取样本,收集资料,得出结论。
      回到论文,我把作者名字放小了,希望大家不要关注名字,而是关注论文本身。作者所说的用传播学效果研究的理论框架来进行理论探索的三个方面。一是传播范围的大小,大小只是量,量大的未必效果好,量小的未必影响差。也就是说大小本身不一定说明效果。传播范围是世界,那么请问世界是怎么划分的呢?这些作品翻译成哪些语种了?不同文学作品可能有数据,可能缺少数据。比如,有关《白毛女》的数据可能少,后面的反而多。第二,专业研究、评论的有无。像前面一样,多少和有无只是一个量而已。专业的评论有长有短,有褒有贬,长短、褒贬是如何区分的呢?要点是什么呢?怎么标注的呢?第三,读者反馈的多少,关于读者反馈,研究者是否区分了反馈时间的早晚,早的可能多,但未必多。比如《三体》刘宇昆版本的英译本,在2014到2018年间,他在亚马逊上的评论就超过3000条了,远超白毛女。读者反应的长、短,读者的喜欢程度,如何区分的,我们都没有看到。读者的母语都不一样,她是用什么语言去阅读的,阅读的版本不一样对于读者的影响也是不一样的。这个研究应该但是没有说明的是:第一,他用的什么资料库、什么软件获取的样本,有效样本量有多少;第二,是用什么软件分析的样本;第三,是如何将评价分类的。只有在这个基础上,才能得出结论。
      另外还有其他问题都没有涉及。包括经典的形成问题,大家都知道,一部作品是不是经典和是否能够成为经典是两回事,因为评价标准是不一样的。
      总之,综上我们可以看到,当我们把《白毛女》这样的作品和《三体》这样的流行小说、科幻小说放在一起,进行所谓的效果研究,是不可行的。因为任何一个研究,都必须有严谨的过程。他这个研究过程的三个方面,还有他没有考虑到的方面,比如他提到汉语写作,那么在国外也用汉语写作的(作家),比如白先勇,是否考虑到他们的世界影响。他的两条启示写得很好:“第一,中国文学的精神品格必须要超越个体体验,张扬中华民族的精神价值”、“第二,中国文学的精神品格必须具有世界视野,放眼天下”。我要说的是,他的结论和两条启示本身也许没有错,但都不是来自本次研究活动。就本次研究活动而言,是不成功的,结论和启示是没有任何学术价值的。我这样讲不是针对作者,而是希望和大家探讨研究方法的科学性和研究的严谨性,在今天这显得尤为重要,我想,这应当引起我们极大的关注和思考。
(文字整理:成晓雨 王晨光)

上一篇:突围短视频——广电媒体融合发展的实践和思考 下一篇:儒家文化与鲁剧影像呈现