近日,一篇关于社会科学研究的社论引发广泛讨论。社论指出,社会科学研究结果可重复性差的问题长期存在,部分人士甚至借此否定整个社会科学领域的价值。事实上,在人类行为这一复杂领域中,研究结果难以重复的原因是多方面的,包括研究方法、统计数据的误用以及样本特征的差异等。
牛津大学约翰·里切尔博士指出,上述问题背后有一个鲜少被讨论的深层原因:社会科学缺乏对日常环境中人类行为的系统性观察,而这种观察方式恰恰是自然科学研究其他物种行为的基本方法。他援引哲学家索伦·克尔凯郭尔1843年的名言——"生命只能向后理解,却必须向前生活"——指出社会科学往往将那些为"向前生活"而形成的文化词汇,直接套用为"向后理解"的科学概念。文化词汇随时间演变、因文化而异,且带有强烈的主观色彩,这使得以这类词汇为基础的研究天然地难以被重复验证。
坎贝尔协作组织首席执行官威尔·莫伊则从更宏观的角度表达了乐观态度。他认为,人类对自身行为和社会运作的认知,远比对星空、海洋乃至人体的了解更为有限,社会科学将成为人类探索的"最后一片伟大疆域"。然而,目前社会科学所使用的工具,与现代天文观测设备相比,仍处于伽利略望远镜的水准。他强调,数据是自然科学的核心驱动力,同样也将成为社会科学和AI发展的根本燃料。大语言模型若要真正兑现其潜力,必须与世界模型和人类行为模型协同发展。为此,社会各界需要大力投资公共数据基础设施,在覆盖范围、更新速度、数据体量和细节精度上实现数量级的提升,这将同时为科学进步和政府决策提供坚实的原材料。
斯特灵大学行为科学硕士项目主任大卫·科默福德教授则聚焦于提升科学研究可靠性的具体路径。他认为,当前科研人员的招聘与晋升体系几乎完全以著作成果为导向,对同行评审贡献的认可度几乎为零。他建议,应将研究者的同行评审活动纳入学术评价体系。目前,Web of Science研究者主页和ORCID平台已支持记录评审活动,只需进一步完善机制,由期刊编辑对高质量评审给予积分奖励,对劣质评审予以扣分,即可激励研究者认真投入同行评审工作,从而在问题结果进入文献之前加以识别和拦截。他强调,双盲同行评审仍是人类迄今发现的"最不差"的真理识别机制,完善这一机制对所有人均有裨益。
Q&A
Q1:社会科学研究结果为何难以被重复验证?
A:社会科学研究结果难以重复,原因是多方面的。首先,研究方法和统计数据的误用会影响结果的可靠性;其次,研究缺乏对人类日常行为的系统性直接观察;此外,社会科学大量借用文化词汇作为科学概念,而这些词汇本身随时间变化、因文化而异,并带有主观色彩,导致基于这类概念的研究天然难以被重复。
Q2:大语言模型与社会科学研究有什么关联?
A:大语言模型若要真正发挥其潜力,需要与世界模型和人类行为模型协同发展。数据是推动自然科学和AI发展的核心驱动力,同样也将成为社会科学进步的关键燃料。因此,社会各界需要投资建设高质量的公共数据基础设施,在覆盖范围、更新速度、数据量和细节精度上大幅提升,为科学研究和政府决策提供支撑。
Q3:如何通过同行评审机制提升社会科学研究的可靠性?
A:可以将研究者的同行评审活动纳入学术评价体系。目前Web of Science和ORCID平台已支持记录评审活动,可进一步完善机制,由编辑对高质量评审给予积分奖励,对劣质评审予以扣分。这样既能激励研究者认真开展同行评审,及早发现问题研究,也能帮助编辑更高效地找到合适的审稿人,整体提升学术研究的可靠性。
好文章,需要你的鼓励
腾讯等机构提出ViQ框架,通过两阶段渐进量化训练,让离散视觉编码在多模态理解和图像重建上同时追平连续特征编码器,训练速度最高提升70%。
作者对Chrome、Edge和Firefox三款主流浏览器的内置AI功能进行了实测对比。Chrome依托Gemini提供搜索摘要与提示词保存功能;Edge集成Copilot,可针对网页、PDF及多标签页进行问答;Firefox则支持多款AI聊天机器人,并提供更强的隐私保护。综合体验后,作者最终选择Edge作为AI辅助浏览的首选,但仍以Firefox作为默认浏览器。
香港科技大学与华为联合提出LISA训练方法,通过让副网络对齐"似然分数",将ControlNet等图像生成模型的训练收敛速度提升逾2.78倍,同时改善图像质量与条件控制精度。