Linuxcat周刊(第25期) 马斯克同意我们已经耗尽了AI训练数据
👏我们的软件推荐站已经完成了升级,欢迎查看: Github
可以向 i@mei.lv 发送邮件或通过 issue 投稿
现在可以通过 nav.linuxcat.top 来访问
封面图
截止当地时间9日下午4点,洛杉矶山火已造成5人死亡,4000多栋房屋被烧毁,过火面积超过116平方公里,超过18万人被要求撤离,超过40万人失去供电。
强风对消防造成了困难。部分地区风速到达160公里每小时。强风预计还将持续数日。
好莱坞地区,火灾逼近好莱坞露天剧场和中国大剧院,距离好莱坞星光大道约1.6公里。
在圣莫尼卡地区,火灾烧毁了著名博物馆盖蒂庄园的部分植物,馆藏和博物馆建筑并未受火灾影响。
正文
1 马斯克同意我们已经耗尽了AI训练数据
马斯克同意其他人工智能专家的观点,即用于训练人工智能模型的真实世界数据所剩无几。马斯克在周三晚间与 Stagwell 董事长马克·佩恩在 X 上直播对话中表示:“我们现在已经基本耗尽了人类知识的累积总和……在人工智能训练方面。这基本上发生在去年。”确实,马斯克认为合成数据——由人工智能模型本身生成的数据——是未来的发展方向。“补充[真实世界数据]的唯一方法是使用合成数据,即人工智能生成[训练数据],”他说。“有了合成数据……[人工智能]将会自我评估并经历这个自我学习的过程。”微软的 Phi-4 于周三早上开源 (https://huggingface.co/microsoft/phi-4),其使用合成数据和真实数据进行训练。谷歌的 Gemma 模型也是如此。
消息来源: Techcrunch | 风向旗参考快讯
2 DeepSeek新模型误认身份,暴露AI训练数据污染问题
近日,中国AI公司DeepSeek发布的最新模型DeepSeek V3在测试中出现异常:它自称是OpenAI的ChatGPT,并能提供OpenAI的API使用说明。专家认为,这可能是由于训练数据中混入了大量ChatGPT生成的内容,导致模型“身份混淆”
随着AI生成内容在网络上激增,训练数据污染问题日益严重。DeepSeek表示正在优化数据清洗流程,以提升模型的独立性和准确性
未来AI开发中数据纯净性已经变得很重要,如何有效过滤AI生成内容将成为行业的关键
消息来源: TechCrunch
3 OpenAI新模型o3单次高算力查询成本或超1000美元
OpenAI最新发布的o3人工智能模型在ARC-AGI基准测试中取得了87.5%的高分,相比前代o1模型提升了近三倍。然而,这种性能的提升也带来了巨大的成本压力。在高算力模式下,每次查询的费用或超过1000美元,是前代模型4美元成本的数百倍。即使是低算力版本,每次查询也需要20美元,这使得其商业化面临不小的困难。据悉,o3计划于明年1月推出“迷你版”,以降低使用成本。
消息来源: Yahoo Tech | 科技圈🎗在花频道
4 Nvidia 押注机器人技术推动未来增长
Nvidia 将机器人技术视为其下一个重要增长动力,因为其核心人工智能芯片制造业务面临着日益激烈的竞争。Nvidia 将于 2025 年上半年推出其最新一代人形机器人紧凑型计算机,名为 Jetson Thor。Nvidia 将自己定位为即将到来的机器人革命的领先平台。该公司销售“全栈”解决方案,从用于训练人工智能机器人的软件层到内置芯片。Nvidia 机器人副总裁 Deepu Talla 称:“物理人工智能和机器人的 ChatGPT 时刻即将到来”,并补充说他相信市场已经达到了“临界点”。
5 OpenAI招聘信息揭示其机器人计划
OpenAI重启机器人部门,将开发通用、自适应机器人,配备定制传感器。并计划自研AI模型驱动机器人。
招聘信息暗示OpenAI将雇佣合同工测试原型机,并可能开发有肢体的机器人。目标是实现大规模生产。
消息来源: TechCrunch | 科技圈🎗在花频道
6 研究发现GitHub存在450万个虚假“Star”的问题
一项由Socket、卡内基梅隆大学和北卡罗来纳州立大学研究人员进行的研究揭示,GitHub上存在约450万个疑似虚假的Star评价——研究团队使用自研工具”StarScout”分析了20TB的GitHub活动数据得出这一结论。
研究显示,2024年虚假Star活动激增,约15.8%拥有超过50个Star的代码库涉及此类行为。这些虚假Star不仅用于提升项目知名度,还被用于传播恶意软件,如去年发现的”Stargazers Ghost Network”。
GitHub已删除研究人员在2024年7月发现的可疑账户和代码库。专家建议用户在评估GitHub项目时,应该查看项目活跃度、代码质量和文档,而不是仅依赖Star数量。
消息来源: BleepingComputer | 科技圈🎗在花频道
7 必应搜索试图在搜索谷歌时模仿 Google UI
微软似乎推出了一项非常有趣但又颇具争议的改变,当使用必应搜索尝试查找谷歌时,必应搜索会模仿谷歌搜索用户界面。这是一个天才的举动,可以让用户远离谷歌搜索,而谷歌已成为搜索引擎或在线查找答案的代名词。当用户在必应上搜索谷歌时,必应的设计看起来很像谷歌。页面布局简洁,中间有搜索栏,还有简单的插图。当用户退出微软账户并在必应上搜索谷歌时,微软正在尝试这种新设计。
消息来源: Windows Latest | 风向旗参考快讯
8 微软论文意外泄露OpenAI及Claude模型参数
近日,微软在一篇医学相关论文中意外泄露了OpenAI及Claude系列模型的参数信息。论文中详细列出了GPT-4o、GPT-4o-mini、Claude 3.5 Sonnet等模型的参数规模,其中GPT-4o约200B,GPT-4o-mini约8B,Claude 3.5 Sonnet约175B。尽管论文中附有免责声明,称这些数字为估计值,但仍引发广泛关注。
消息来源: 量子位 (https://mp.weixin.qq.com/s/bT_w-T9ElmPUXbYA1f7kCg)
9 末日主题验证码新玩法
Vercel公司推出新式验证码,用户需在DOOM游戏中击杀至少三个怪物才能通过。此验证码在Hacker News引发热议。
尽管创意非原创,但新式验证码仍受开发者欢迎,有人觉得太难,有人则称赞“太硬核”,有人认为难度像真验证码。
消息来源: Demo | TechCrunch (https://techcrunch.com/2025/01/01/people-are-playing-a-new-doom-themed-captcha/)