一项新研究发现,DeepSeek 生成的文本中有高达 74.2% 的内容在写作风格上与 OpenAI 的 ChatGPT 输出惊人地相似。这一发现暗示 DeepSeek 可能在训练过程中使用了 ChatGPT 的输出内容。
AI 检测公司 Copyleaks 在该研究计划发布到 Cornell 大学 arXiv.org 知识库之前,独家提供了这项研究。该公司表示,这项前瞻性研究可能对未来的知识产权、AI 监管和 AI 发展产生重大影响。
DeepSeek 文本与 ChatGPT 风格相似——与其他模型不同
Copyleaks 的研究使用筛选技术和算法分类器来检测各种语言模型(包括 OpenAI、Claude、Gemini、Llama 和 DeepSeek)产生的文本的风格特征。分类器采用一致投票方法来减少假阳性并确保高精度。
有趣的是,虽然大多数模型生成的文本都能轻易地被识别出各自独特的特征,但 DeepSeek 的大部分输出都被归类为 OpenAI 模型生成的内容。
Copyleaks 数据科学主管 Shai Nisan 在邮件交流中表示,这项研究类似于笔迹专家通过比较手写文本与其他作者的样本来识别手稿作者。在这个案例中,结果令人惊讶且意义重大。
"我们的研究采用了'一致陪审团'方法,发现 DeepSeek 和 OpenAI 模型之间存在显著的风格相似性,这种相似性在其他检测的模型中并未发现,"他解释道。
Nisan 补充说,这引发了关于 DeepSeek 训练方式的重要问题,以及它是否未经授权就利用了 OpenAI 的输出。
"虽然这种相似性并不能确定地证明 DeepSeek 是衍生品,但确实引发了对其开发过程的质疑。我们的研究特别关注写作风格;在这个领域,与 OpenAI 的相似性非常显著。考虑到 OpenAI 的市场领先地位,我们的发现表明有必要进一步调查 DeepSeek 的架构、训练数据和开发过程,"Nisan 写道。
ChatGPT 的知识产权是否被侵犯?
如果 DeepSeek 的训练数据未经适当授权就使用了 OpenAI 生成的文本,这对知识产权的影响将是深远的。这种情况可能违反了 OpenAI 的服务条款,甚至可能侵犯其知识产权。AI 训练数据普遍缺乏透明度更加剧了这些问题,凸显了需要建立强制要求披露训练数据集的监管框架。
Nisan 指出这可能对 AI 行业产生深远影响。
"研究强烈表明,在未来的 AI 发展和监管中,透明度和强有力的知识产权保护至关重要。监管机构可能会考虑要求公司详细披露用于训练其模型的数据集和模型输出信息,"他补充道。
鉴于 DeepSeek 被认为的创新性及其技术引发的其他问题,这个问题变得更加令人担忧。例如,据报道,在 DeepSeek 于 1 月份宣布其"新颖的"训练和快速推理解决方案与其他生成式 AI 模型相比只需要少量昂贵的 Nvidia AI 处理器后,Nvidia 的市值出现显著损失。
如果有证据表明 DeepSeek 的创新是基于未经授权使用 OpenAI 的输出,其财务和法律后果可能会很严重。
ChatGPT 自身的伦理和法律挑战
虽然 OpenAI 本身因未经明确许可就训练大量网络内容而受到批评,但 DeepSeek 可能模仿了 OpenAI 的风格这一可能性引入了新的复杂性。这表明当前知识产权框架中可能存在漏洞——AI 模型可以在没有法律追究的情况下相互"学习"。
从法律角度来看,由于缺乏先例,执法变得困难。虽然 AI 模型的风格特征识别可以作为识别未经授权模型使用的有力工具,但这并不是法律诉讼的"确凿证据"。
然而,这些发现可能会推动制定更明确的知识产权和 AI 训练开发监管标准的努力。
DeepSeek 和 ChatGPT 的相似性可能源于数据
对 Copyleaks 研究结果的一个反驳是,AI 模型可能会随着时间的推移在风格上趋同,特别是如果它们在重叠的数据集上进行训练。然而,该研究的一致性集成方法专门设计用于检测模型之间细微的风格差异。
这表明 DeepSeek 和 OpenAI 之间的相似性不仅仅是数据集重叠的副产品,而可能表明存在更深层次的结构或训练相似性。
"即使大语言模型从重叠的数据集中获取数据,AI 特征识别仍然至关重要。架构、微调方法和生成技术等要素的巨大差异性确保了每个大语言模型都会形成独特的写作风格,"Nisan 总结道。
也许时间和 AI 检测会给出答案
随着 AI 继续渗透到现代生活的几乎每个方面,对明确的知识产权法规和道德标准的需求变得更加必要和重要。DeepSeek 是否最终被证实未经授权就利用了 OpenAI 的输出仍有待观察。
然而,这类研究提出的问题可能会持续存在,并可能影响 AI 发展和监管的未来——影响 DeepSeek、ChatGPT 和该领域的所有其他参与者。在发稿时,DeepSeek 尚未回应置评请求。
好文章,需要你的鼓励
这项研究由德累斯顿工业大学等机构的研究团队完成,旨在解决主动学习未被广泛应用的问题。研究者构建了包含460万种超参数组合的实验网格,系统分析了各参数对主动学习性能的影响。研究发现,不同策略实现间存在显著差异,基于边缘的不确定性策略整体表现最佳,随机选择约4000个超参数组合即可获得可靠结果。这些发现为设计可重现、可信赖的主动学习实验提供了明确指导,有助于降低入门门槛,促进技术在实际应用中的普及。
这项由英国爱丁堡大学和上海人工智能实验室研究者共同完成的工作提出了LongBioBench,一种用于评估长文本语言模型的新型基准测试框架。通过使用人工生成的虚构人物传记作为测试环境,该框架在保持可控性的同时,提供了更真实的评估场景。研究对18个长文本模型的测试表明,即使最先进的模型在检索、推理和可信任性方面仍存在显著挑战,特别是上下文长度增加时。研究还揭示了现有合成基准测试的设计缺陷和长上下文预训练的局限性,为未来模型开发提供了重要指导。
SuperWriter是一项来自新加坡科技设计大学和清华大学的突破性研究,通过模仿人类"先思考后写作"的过程,彻底改良了AI长文生成能力。该研究团队开发的框架包含三个关键阶段:规划、写作和修改,使AI能像专业作家一样进行结构化思考。实验结果表明,经过训练的SuperWriter-LM模型不仅超越同等规模的所有AI模型,甚至在某些领域表现优于规模更大的顶级模型,为AI辅助写作开创了新的可能性。
香港大学与阿里巴巴达摩院合作开发的LayerFlow是一种突破性的层级视频生成技术,能同时生成透明前景、完整背景和混合场景视频。该技术通过创新的框架设计将不同视频层级作为子片段连接,并引入层级嵌入使模型区分各层级。面对高质量训练数据稀缺的挑战,研究团队设计了三阶段训练策略,结合Motion LoRA和Content LoRA,实现了图像和视频数据的联合训练。LayerFlow不仅支持多层视频生成,还能实现视频分解和条件层生成,为视频创作领域带来革命性变革。