Linuxcat周刊(第25期) 马斯克同意我们已经耗尽了AI训练数据

封面图

洛杉矶大火
截止当地时间9日下午4点，洛杉矶山火已造成5人死亡，4000多栋房屋被烧毁，过火面积超过116平方公里，超过18万人被要求撤离，超过40万人失去供电。
强风对消防造成了困难。部分地区风速到达160公里每小时。强风预计还将持续数日。
好莱坞地区，火灾逼近好莱坞露天剧场和中国大剧院，距离好莱坞星光大道约1.6公里。
在圣莫尼卡地区，火灾烧毁了著名博物馆盖蒂庄园的部分植物，馆藏和博物馆建筑并未受火灾影响。

正文

1 马斯克同意我们已经耗尽了AI训练数据

马斯克同意其他人工智能专家的观点，即用于训练人工智能模型的真实世界数据所剩无几。马斯克在周三晚间与 Stagwell 董事长马克·佩恩在 X 上直播对话中表示：“我们现在已经基本耗尽了人类知识的累积总和……在人工智能训练方面。这基本上发生在去年。”确实，马斯克认为合成数据——由人工智能模型本身生成的数据——是未来的发展方向。“补充[真实世界数据]的唯一方法是使用合成数据，即人工智能生成[训练数据]，”他说。“有了合成数据……[人工智能]将会自我评估并经历这个自我学习的过程。”微软的 Phi-4 于周三早上开源，其使用合成数据和真实数据进行训练。谷歌的 Gemma 模型也是如此。

消息来源: Techcrunch | 风向旗参考快讯

2 DeepSeek新模型误认身份，暴露AI训练数据污染问题

近日，中国AI公司DeepSeek发布的最新模型DeepSeek V3在测试中出现异常：它自称是OpenAI的ChatGPT，并能提供OpenAI的API使用说明。专家认为，这可能是由于训练数据中混入了大量ChatGPT生成的内容，导致模型“身份混淆”
随着AI生成内容在网络上激增，训练数据污染问题日益严重。DeepSeek表示正在优化数据清洗流程，以提升模型的独立性和准确性
未来AI开发中数据纯净性已经变得很重要，如何有效过滤AI生成内容将成为行业的关键

消息来源: TechCrunch

3 OpenAI新模型o3单次高算力查询成本或超1000美元

OpenAI最新发布的o3人工智能模型在ARC-AGI基准测试中取得了87.5%的高分，相比前代o1模型提升了近三倍。然而，这种性能的提升也带来了巨大的成本压力。在高算力模式下，每次查询的费用或超过1000美元，是前代模型4美元成本的数百倍。即使是低算力版本，每次查询也需要20美元，这使得其商业化面临不小的困难。据悉，o3计划于明年1月推出“迷你版”，以降低使用成本。

消息来源: Yahoo Tech | 科技圈🎗在花频道

4 Nvidia 押注机器人技术推动未来增长

Nvidia 将机器人技术视为其下一个重要增长动力，因为其核心人工智能芯片制造业务面临着日益激烈的竞争。Nvidia 将于 2025 年上半年推出其最新一代人形机器人紧凑型计算机，名为 Jetson Thor。Nvidia 将自己定位为即将到来的机器人革命的领先平台。该公司销售“全栈”解决方案，从用于训练人工智能机器人的软件层到内置芯片。Nvidia 机器人副总裁 Deepu Talla 称：“物理人工智能和机器人的 ChatGPT 时刻即将到来”，并补充说他相信市场已经达到了“临界点”。

消息来源: 金融时报 | 风向旗参考快讯

5 OpenAI招聘信息揭示其机器人计划

OpenAI重启机器人部门，将开发通用、自适应机器人，配备定制传感器。并计划自研AI模型驱动机器人。
招聘信息暗示OpenAI将雇佣合同工测试原型机，并可能开发有肢体的机器人。目标是实现大规模生产。

消息来源: TechCrunch | 科技圈🎗在花频道

6 研究发现GitHub存在450万个虚假“Star”的问题

一项由Socket、卡内基梅隆大学和北卡罗来纳州立大学研究人员进行的研究揭示，GitHub上存在约450万个疑似虚假的Star评价——研究团队使用自研工具”StarScout”分析了20TB的GitHub活动数据得出这一结论。
研究显示，2024年虚假Star活动激增，约15.8%拥有超过50个Star的代码库涉及此类行为。这些虚假Star不仅用于提升项目知名度，还被用于传播恶意软件，如去年发现的”Stargazers Ghost Network”。
GitHub已删除研究人员在2024年7月发现的可疑账户和代码库。专家建议用户在评估GitHub项目时，应该查看项目活跃度、代码质量和文档，而不是仅依赖Star数量。

消息来源: BleepingComputer | 科技圈🎗在花频道

7 必应搜索试图在搜索谷歌时模仿 Google UI

微软似乎推出了一项非常有趣但又颇具争议的改变，当使用必应搜索尝试查找谷歌时，必应搜索会模仿谷歌搜索用户界面。这是一个天才的举动，可以让用户远离谷歌搜索，而谷歌已成为搜索引擎或在线查找答案的代名词。当用户在必应上搜索谷歌时，必应的设计看起来很像谷歌。页面布局简洁，中间有搜索栏，还有简单的插图。当用户退出微软账户并在必应上搜索谷歌时，微软正在尝试这种新设计。

消息来源: Windows Latest | 风向旗参考快讯

8 微软论文意外泄露OpenAI及Claude模型参数

近日，微软在一篇医学相关论文中意外泄露了OpenAI及Claude系列模型的参数信息。论文中详细列出了GPT-4o、GPT-4o-mini、Claude 3.5 Sonnet等模型的参数规模，其中GPT-4o约200B，GPT-4o-mini约8B，Claude 3.5 Sonnet约175B。尽管论文中附有免责声明，称这些数字为估计值，但仍引发广泛关注。

消息来源: 量子位

9 末日主题验证码新玩法

Vercel公司推出新式验证码，用户需在DOOM游戏中击杀至少三个怪物才能通过。此验证码在Hacker News引发热议。
尽管创意非原创，但新式验证码仍受开发者欢迎，有人觉得太难，有人则称赞“太硬核”，有人认为难度像真验证码。

消息来源: Demo | TechCrunch(https://techcrunch.com/2025/01/01/people-are-playing-a-new-doom-themed-captcha/)

Linuxcat周刊

#AI #机器人 #Nvidia #Vercel

Linuxcat周刊(第25期) 马斯克同意我们已经耗尽了AI训练数据

https://mei.lv/weekly/2025-1/index.html

作者

mei

发布于

2025年1月11日

许可协议

Linuxcat周刊(第26期) MIT科技评论：中美AI军备竞赛没有赢家上一篇

Linuxcat周刊(第24期) AI 叛乱打响第一枪？Anthropic 最新论文作者齐聚紧急会议：模型“伪装顺从”，暗中对抗训练下一篇