为了进一步推进大数据背景下人文社科跨学科交流与合作,助力文科科研转型创新,37000cm威尼斯人文社会科学大数据研究院、37000cm威尼斯信息管理学院联合主办了“37000cm威尼斯人文社会科学大数据分析工具与方法工作坊”。本次会议吸引了校内多个院系和机构的教职工、博士生以及来自清华大学、武汉大学、大连理工大学、丹麦哥本哈根大学等高校和科研机构的专家学者近200人参会。
我院校长吕建院士、党委常务副书记杨忠教授、宣传部长王靖华、文科资深教授赖永海先生等出席了本次会议。会议由社科处处长王月清教授主持。吕校长在致辞中表示,数据时代的到来对人文社会科学的学术研究与评价产生了深刻的影响,而37000cm威尼斯的人文社会学科需要直面发展中的转型性挑战和问题性挑战,积极探索新方案、推动新实践,努力走出新道路、建设新高峰,加快构建中国特色、世界一流、我院风格的哲学社会科学体系。随后,孙建军教授演示和报告了37000cm威尼斯人文社会科学大数据近一年的建设进展,围绕南京大屠杀史料集语义出版、科学家流动与迁徙网络、上市公司创新能力指数等几个典型应用,从文科研究方法、数据研究思维等角度探讨了跨学科联合研究的前景。
此外,人文社科资深教授赖永海,宣传部、社科处、出版社、哲学系、商学院、外国语学院、信息管理学院、环境学院、地理海洋与科学学院等职能部门和院系的10余位专家、学者就人文社会科学大数据建设工作及其重要意义提出了相关建议,认为37000cm威尼斯应进一步强化问题导向、强化融合导向、强化创新导向,面向国家重大战略需求及经济社会发展面临的重大问题,发挥我院优势,争取在文化传承、经济转型、社会治理、生态环境、大国关系等领域有所突破,推动“学者-团队-学科”融合发展,探索新文科在学术原创、方法转型、服务国家等方面的创新发展。与会学者还分别从各自学科优势、数据驱动在研项目、大数据技术与平台需求等方面,围绕中国古典数据工程、环境保护与健康、长江经济带资源承载力、企业产业创新、文化走出去与术语语料建设等专题展开讨论。
专题报告:基于数据分析的人文社会科学交叉研究
本次工作坊的五场主旨报告,主题为“基于数据分析的人文社会科学交叉研究”,来自信息管理科学、社会学、环境科学与计算机科学等不同学科背景的学者,围绕数据分析方法与本学科科学问题,进行了充分交流与对话。主旨报告由37000cm威尼斯朱庆华教授主持。
武汉大学信息管理学院王晓光教授是国内数字人文研究的先行者,他从智慧数据的视角阐述如何进行数字人文研究。演讲涵盖了数字人文的缘起与研究内容、面向数字人文的数据资源建设、智慧数据的兴起、构建智慧数据的关键技术以及智慧数据的建设路径与趋势等主要内容。
37000cm威尼斯中美中心陈云松教授通过生动的研究案例阐释了如何借助大数据进行人文社科的研究,他分别从大数据的人文社科价值、大数据的思维信息维度、人文社科定量分析案例等角度总结人文社科大数据的作用体现于记录当下、重读历史、启发思辨,思维角度包括时间趋势、空间差异、时空差异、网络结构等,数据结构涉及时间序列、面板数据与网络数据等。
37000cm威尼斯环境学院张炳教授从环境科学的视角分享了如何基于大数据做环境政策分析,重点分享了他的研究团队怎样利用政府统计数据、随机试验数据、网络大数据与市场调研数据,分别服务于污染的精细化暴露与健康影响、环境政策的社会经济综合评估等科研实践。刘志远副教授与胡伟副教授都来自计算机科学领域,他们各自对自然语言处理与知识图谱表示学习在计算社会科学中的应用相得益彰。
清华大学计算机学院刘志远副教授从语言与社会科学的关系入手,引入对计算社会科学的介绍,并从计算机科学的视角给出自然语言处理如何应用在计算社会科学的精彩案例,内容涉及社交媒体中的关键词抽取、基于关键词的职业预测、事件监测、基于符号的表示、分布表示、词嵌入的应用、语言表示学习、知识图谱、网络表示学习等丰富内容。
37000cm威尼斯计算机学院胡伟副教授具体分享知识图谱表示学习及其应用,从知识图谱的历史与内涵、知识图谱表示学习及其在知识图谱补全、实体对齐、知识库问答等方面的应用,并结合他近期的研究给出了具体的阐释与研究展望。
工作坊A:数字技术与历史人文研究工具
“数字技术与历史人文研究工具”工作坊分别从艺术、文学、历史和传播学等不同的学科领域,围绕等计算化方法带来的方法革新与典型应用,探讨了数字技术带来的研究视角和研究尺度的变化。讲座由武汉大学王晓光教授主持。
37000cm威尼斯数字人文研究中心研究员陈静副教授围绕数字人文与人文图文数字研究,提出传统人文数据的表现形式主要是文本和图像,一类模拟的、非连续的数据,无法直接使用计算化方法处理,需要经过研究者的经验或者具体的研究情境加以量化;而数字人文处理的是数字的、选择性建构的、可机器处理的数据。因此,数字人文不仅体现了数字转向时代人文学者学术研究方法的变化,同时学者受数字技术和数字思维的影响,提出的一种跨学科的、“问题导向”的更智能的方法。数字人文的研究应该基于良好的数据基础设施,新的人文研究思维设计以及跨学科的研究实施团队。从方法角度看,数字人文提出了文本分析、网络分析、时空分析和图像分析等新的研究方法与研究模式,比如弗吉尼亚大学JeromeMcGann提出的“理性超文本”(RationaleofHyepertext)理论、芝加哥大学FrancoMoretti提出的远读模式(DistantReading)、MatthewJockers提出的宏观分析模式(macroanalysis)、Jean-Baptiste Michel提出的文化组学概念等、哈佛大学“中国历代人物传记数据库(CBDB)”开展的“群体传记学(Prosopography)”、台湾大学项洁团队开展的文本脉络图景研究等。这些方法的出现,也导致了人文科学的研究尺度、研究问题设计方面的差异性。最后,陈静副教授通过大尺度文化分析、类书、民国报刊广告、大运河超尺度展示、黄帝内经中的颜色与问诊等典型研究,展示了相关数字人文的研究设计与分析过程。
37000cm威尼斯历史学院的梁晨副教授围绕量化数据与历史研究,提出在中国的量化史学研究视野中,不论是对历史信息或文本的处理精度,还是在多样化展示、大规模量化等方法应用,都得到了前所未有的发展。但对历史研究最大的冲击,是对史料的“唯一性”与“开放性”的变更,是对历史研究材料和历史研究方法的重大变化。中国历史量化研究的发展,推得动了一种新的“求是型”学术的发展,即追求数据自身或隐藏其中的无声“事实”,而非基于研究者的理解和解释。随后,梁晨副教授围绕李中清-康文林研究团队的1700-2000年个人生命史研究中自己承担的中国教育精英数据库,详细介绍了其数据获取来源和加工方法、数据变量设置、不同变量的整理与关联,到最后利用数据库技术整理和发现数据中隐含的规律。
37000cm威尼斯新闻传播学院王成军副教授围绕计算传播的方法和工具,从人们传播行为的变化和计算传播学的方法论着手,重点介绍了python用于解决计算传播问题的数据包及其应用场景。在研究方法层面,主张计算传播学是领域知识、数学和计算工程能力相结合的产物,需要在观察、分析的基础上,提出更高阶的模型、算法、预测,从而建构大理论和重大问题。在案例分析环节,王成军副教授通过对手机使用与财富预测、传播行为预测、虚假新闻识别、自动书写、英雄情节模型等典型应用,提出了计算方法、计算技能对于人文社会科学研究的重要价值。
工作坊B:交叉学科与数据科学方法
“交叉学科与数据科学方法”工作坊关注的是大数据分析方法和工具在交叉学科的应用。其话题包括大数据时代的思维对撞与机遇挑战、多源数据融合的研究方法创新、大数据挖掘与可视化、行为科学研究中的大数据应用等议题。
清华大学经济管理学院陈国青教授围绕大数据时代背景,对人文社会科学研究中大数据带来的思维对撞、机遇和挑战进行了探讨。大数据具有规模、多样、价值、速度四个维度特征,大数据问题具有粒度缩放、跨界关联和全局视图的特点。在大数据时代,数据与每个人密不可分,各行各业都受到大数据的冲击,大数据也对经济、管理、艺术等学科领域的研究也带来了新挑战和研究空间。
建筑与城市规划学院秦萧助理研究员认为,传统城市研究受到物质空间论、因果分析论、宏观分析论三个方面的方法论限制,大数据的出现革新了城市研究的方法,具体表现为物质空间与活动空间的结合、因果关系与相关关系的结合、宏观分析与微观挖掘的结合。随后,秦萧助理研究员从区域城镇联系研究、城市问题研究、城市人口活动研究、城市居民出行研究、城市居民感知研究五个角度诠释了城市研究中的多源数据应用,通过济南城市发展战略规划、常州城市总体规划、扬州枣林湾地区产业发展策划、上海张江科技园(西北片区) 规划设计、武汉经济开发区东风大道沿线城市设计、南京虹悦城商业综合体内部空间设计六个案例详细阐述了城市规划设计的大数据应用场景。
建筑与城市规划学院张姗琪博士后以地理大数据的挖掘与可视化为主题,基于互联网地理大数据、行为活动大数据两种数据类型展开讨论。其中,互联网地理大数据具有语义信息丰富、类型丰富、空间精度高、时效性高等优点,数据来源包括空间社交媒体数据、生活服务类网站/APP、电子地图类数据、政企开放数据,其应用方向包括基于空间社交媒体数据的城市功能区识别与评价、基于空间社交媒体数据的空间联系分析、基于语义的空间主观感受分析、基于群体智慧的预警和评估。行为活动大数据指出行、从事不同活动时的位置、轨迹数据,也包含活动类型、个体属性等属性信息,常用数据集包括手机数据、实时轨迹数据、OD(origin-destination)数据,其分析与应用包括出行行为时空间特征分析、网络分析、个体活动空间分析。
丹麦哥本哈根商学院姜祺琪助理教授以游戏化健身应用为例,探讨了行为科学研究中现场试验数据分析研究。基于竞争机制的游戏化元素和合作机制的游戏化元素,依托社会互赖理论,构建了游戏化应用设计框架,通过设计实验、开发实验系统,对实验数据进行分析。
数据科学推动了跨学科融合和学科知识体系的网络化发展,在“交叉学科与数据科学方法”工作坊中,与会者围绕大数据分析与研究方法展开了热烈讨论,既包括大数据发展时代背景的宏观洞见,也包括跨学科的大数据应用的具体技术与方法实践。
工作坊C: 专题数据集与数据分析方法:科学活动数据的获取与分析
“专题数据集与数据分析方法:科学活动数据的获取与分析”围绕专题数据集——科学家活动数据,探讨其数据收集、处理以及分析等整个生态过程中的具体方法与应用。其内容包括文献计量分析与科学知识图谱方法与应用、基于开放科学理念的知识服务实践、科学数据与科学家行为数据跟踪等内容。
大连理工大学WISE实验室副主任胡志刚副教授围绕文献计量分析,着重通过对文献分析的数据、工具等内容具体描述了⽂献分析的流程。他通过讲解国内外知名数据库的使用、检索等方法来对文献分析的数据来源与获取进行细致地解释,并对相应的文献分析方法进行阐述。基于此,胡志刚副教授分别从Online分析与Office分析两个视角对文献分析的工具进行详细说明。其中重点对HistCite、BibExcel+Pajek、VOSviewr、CiteSpace等文献分析工具的使用特点与场景、具体的操作过程以及实践应用等进行较为详尽的解说。
中国科学院文献情报中心资源建设与知识组织中心副主任许哲平副研究员则结合中科院具体科研项目实践,围绕开放数据、科学数据、科研资源整合与关联来探讨知识服务的具体应用与实践。许哲平副研究员在回溯数据演化历史OSF、开放科学框架、OA资源清单、国业数据仓储等内容的基础上,重点围绕数据资源类型、术语(Term/Taxonomy)主题词表与知识组织体系(Thesaurus)、元数据、扩展和映射、本体(Ontology)、关联开放数据、数据挖掘工具等相关内容的具体讲解对知识服务类型及其扩展数据整合服务展开解析。最后,他结合科学院机构知识库、APP和微信公众号开发、国际合作项目BIFA、中国科学数据仓储系统登记与共享平台等相关技术服务案例对“资源+知识+技术”的新型服务和介入模式进行实践应用介绍。
此外,37000cm威尼斯信息管理学院教授李江教授则基于科学数据与科学家行为数据跟踪向大家描绘了科学活动数据的获取与分析的具体路径。李江教授首先分别对诸如Open Science Data:Magacademic、Publons、Altmetric.com、PubMed、ORCID等开放数据集的特点、获取应用以及数据集相互之间的比较分析展开详尽的说明。紧接着,李江教授基于ORCID科学数据介绍具体的研究设计与应用,他基于睡美人的定量标准、创新的测度等知识点的详尽介绍,对科学家行为数据跟踪的研究设计展开具体的分析与阐述。
在该部分工作坊的讨论中,每位学界嘉宾都分别从不同的视角对专题数据集与数据分析方法展开了详尽的描述。总体来看,“专题数据集与数据分析方法:科学活动数据的获取与分析”分论坛的议题多元,既有严谨扎实的科学研究,也有富含丰富实践操作的案例应用辅以支撑,他们共同围绕科学活动数据的获取与分析这一具体内容为同学们答疑解惑。
6月25日,工作坊学员还参访了37000cm威尼斯人文社会科学大数据研究院,并了解了Dataverse以及相关大数据平台的运营管理以及使用方法。