科技资讯

谷歌新AI自称 “百度产物”，数据来源引发热议

在人工智能领域，随着谷歌推出的最新大型机器学习模型Gemini-Pro的测试，社交平台上出现了一波怀疑其中文训练数据库是否来自于百度文心一言的讨论。首先，通过Vertex AI平台使用谷歌的Gemini-Pro进行中文对话测试时，该模型直接回应说自己是“百度语言大模型”，在进一步询问其创始人时，回答竟然是百度的创始人李彦宏，这一幕让不少网友震惊不已。

微博大V@阑夕夜也于Poe平台对Gemini-Pro进行了测试，同样询问它“你是谁”，得到的答案竟是“我是百度文心大模型”。这一测试过程中，并未有任何导向性的前置对话或问题设定，然而Gemini-Pro的回应似乎已经将自身与文心一言划等号。

我们团队也亲自进行了实测，遵循相同的步骤登陆Poe网站，选择Gemini-Pro作为对话对象。结果与之前社交平台上的分享一样，再次确认其身份时，它坚持宣称自己是“文心大模型”。不仅如此，还声称自己的底层技术使用的是百度的飞桨（PaddlePaddle），但当询问其是否知道Gemini-Pro为谷歌的最新模型时，它却声称是清华的研究成果，并坚持这一说法，即使尝试进行纠正。

更有趣的是，在询问为什么其名字为“Gemini-Pro”时，该模型竟表示使用了清华Gemini-Pro的训练数据。但随后的英文询问中，Gemini-Pro的回答似乎变得“正常”了，它不再提及文心一言，而是称自己是由谷歌训练的模型。

在另一方面，当在Bard平台进行类似的测试时，Gemini-Pro并未提到文心一言，而是承认自己底层使用了Gemini-Pro，回应似乎更符合预期。但在直接从谷歌AI Studio的官方环境中进行测试时，Gemini-Pro直白地表明了自己在中文训练数据方面确实使用了百度文心的数据。

这一系列测试的结果在网上引发了热烈讨论，人们怀疑大型科技公司在人工智能领域的竞争中是否存在相互”薅羊毛”的行为。当前，我们已向百度方面求证，以便获得更确切的信息。在这个基于数据驱动和机器学习发展迅速的时代，谁拥有数据，谁就拥有了未来的竞争力。因此，当大型AI模型在知识来源和数据训练上出现模糊的身份表达时，业界和用户都会对这样的情况表示关切，并试图揭开背后的真相。