东谈主工智能教练数据铺张了怎样办?
近日,马斯克在应付平台 X 上的一场直播对话中暗示,东谈主工智能教练数据照旧铺张:
"咱们基本上照旧用尽了东谈主类学问的积存总数来进行 AI 教练,这种情况约莫在客岁就照旧发生了。"
马斯克的不雅点与前 OpenAI 首席科学家 Ilya Sutskever 不约而同。客岁 12 月,Sutskever 在机器学习会议 NeurIPS 上暗示,AI 行业照旧达到了他所谓的"数据峰值",教练数据的混沌将迫使 AI 模子的缔造样式发生逶迤。
不外,濒临数据铺张的窘境,马斯克残暴了一个可能的惩办决策:
"唯独的补充武艺是使用合成数据,即由 AI 模子我方生成的数据。通过合成数据,AI 将对自身进行评分,并经验一个自学习的进程。"
事实上,包括微软、Meta、OpenAI、Anthropic 等在内的科技巨头照旧启动使用合成数据来教练 AI 模子了。据信息工夫参议和参谋人公司 Gartner 推断,2024 年用于 AI 教练和分析项遐想数据中,有 60% 是合成的。
微软最近开源的 Phi-4 模子即是使用合成数据和真确天下数据共同教练的。谷歌的 Gemma 模子、Anthropic 的 Claude 3.5 Sonnet 系统以及 Meta 最新的 Llama 系列模子也皆采纳了雷同的武艺。
分析师暗示,使用合成数据进行教练还省略量入制出本钱。AI 初创公司 Writer 宣称,其险些整个使用合成数据源缔造的 Palmyra X 004 模子仅破耗了 70 万好意思元,而比较之下,OpenAI 同等界限模子的缔造本钱推断为 460 万好意思元。
不外需要夺主义是,使用合成数据也存在一些潜在风险。一些参议标明,合成数据可能导致模子崩溃,即模子的输出变得不够"革命",反而愈加偏颇,最终严重影响模子的功能。由于合成数据是由模子生成的半岛彩票,若是用于教练这些模子的数据自身存在偏见和局限性,那么它们的输出也会受到相似的影响。