Linuxcat周刊(第46期) 清华团队发现 ChatGPT 中文词表污染高达 46.6%，含大量色情赌博词汇

正文

1 清华团队发现 ChatGPT 中文词表污染高达 46.6%，含大量色情赌博词汇

清华大学、南洋理工大学和蚂蚁集团的研究人员发现，GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文词表污染高达 46.6%，包含「波*野结衣」、「大发时时彩」、「大发快三」等色情、赌博相关词元。研究团队对 OpenAI 近期发布的 GPT-5 和 GPT-oss 词表分析显示，其中文 token 没有变化。
研究团队定义了中文污染词（PoC tokens）概念，并将其分为成人内容、在线赌博、在线游戏、在线视频、奇怪内容等 5 个类别。专家标注团队对 ChatGPT 模型的 1659 个中文长词进行标注，发现污染词达 773 个，其中成人内容污染词最多，有 219 个。实验显示，输入中文污染词会导致 ChatGPT 在解释和重复任务上出现约 50% 的性能损失。研究团队还构建了自动化中文污染词识别模型，达到 97.3% 的识别正确率，并通过词表污染估计训练数据污染情况。

消息来源：机器之心 | 科技圈🎗在花频道

2 OpenAI联创Greg Brockman：规模假说源于意外发现，ChatGPT模式是不得已选择

在Stripe播客中，OpenAI联合创始人兼总裁Greg Brockman透露了AI发展的关键内幕。他表示规模假说并非OpenAI的初始战略，而是2017年在Dota 2项目中意外发现——每当计算资源翻倍，AI表现就相应提升，这一发现彻底改变了AI研究方向。
Greg强调AI项目需要”过程导向”而非”结果导向”，因为AI结果不可控。关于GPT-3产品化，团队最初感到绝望，因为做API违背传统创业原则，但技术足够强大时市场会自己找到出路。他预测AI将在2-5年内解决千禧年数学难题，能源将成为AI发展主要瓶颈，数据墙问题已通过合成数据等新方法突破。

消息来源：Solidot | YouTube | 科技圈🎗在花频道

3 RAR 压缩文件内文件名成“武器”：逃避杀毒软件检测、触发 Linux 恶意文件

网络安全公司 Trellix 昨日（8 月 24 日）披露，近期网络上出现了针对 Linux 的新型攻击链，通过钓鱼邮件传播开源后门 VShell。攻击利用恶意 RAR 压缩包中文件名嵌入的 Bash 命令实现自动执行，并绕过杀毒软件文件扫描。
该技术利用了 shell 脚本在处理文件名时缺乏输入清理的漏洞，例如使用 eval 或 echo 时可能无意执行任意代码。由于杀毒引擎通常不会扫描文件名，这种方式能够绕过传统防御机制。
在被 shell 解析时，如“ziliao2.pdf{echo,<Base64-encoded command>}|{base64,-d}|bash“”恶意文件名会触发执行下载器，从外部服务器获取适配架构的 ELF 安装文件。

消息来源：IT之家 | LoopDNS资讯播报

4 挪威证书颁发机构 Buypass 宣布停止签发 TLS/SSL 证书

挪威证书颁发机构 Buypass 宣布，将于 2025 年 10 月 15 日起停止提供 TLS/SSL 证书服务。该公司表示，这一决定基于对市场状况和证书颁发监管框架的全面评估，主要原因包括国际市场竞争激烈、免费证书普及导致收入下降，以及监管要求不断提高带来的投资成本增加。此前 Buypass 的免费 ACME（GoSSL）证书有效期为 6 个月（180 天），较业内常见的 90 天更长；随着此次调整，该免费服务也将随之终止。
现有的 TLS/SSL 证书将保持有效直至到期或被撤销，撤销服务和证书状态服务将正常运行。Buypass 的企业证书服务将继续提供，其他身份认证和数字签名解决方案不受影响。根据时间表，2025 年 10 月 31 日为最后证书签发日期，2026 年 10 月 31 日为 TLS/SSL 证书最后到期日。

消息来源：Buypass | 科技圈🎗在花频道

5 DeepSeek V3.1 出现严重 bug：输出内容随机插入「极」字

DeepSeek V3.1 模型被发现存在严重输出错误，会在生成内容中随机插入「极」字，导致模型无法正常用于编程或结构化输出工作。该问题最初在火山、chutes 等第三方 API 平台上被发现，但经测试官方网站同样存在此问题。
分析显示，「极」字对应的 token 编号为 2577，与省略号的 token 编号 2576 相邻，可能与数据集清理不当或模型”偷懒”行为有关。目前官方平台出现该 bug 的概率相对较低，但第三方平台概率显著增加，可能与量化、部署配置或设备差异相关。一旦出现该问题，后续输出中「极」字出现频率会进一步增加。

消息来源：LINUX DO | Reddit | 科技圈🎗在花频道

6 互联网工程任务组发布草案：网页将添加 AI 内容披露标头字段，以便更容易确定网页是否使用了人工智能

互联网工程任务组（IETF）近日发布了一份草案文件，提议为网页引入新的标头字段，以便更容易确定网页是否使用了人工智能。根据《AI 内容披露标头》草案，这一拟议的元数据将使机器更容易确定 AI 如何参与特定网站的制作，从而实现更便捷的自动化、索引和合规性检查。
该标头将包含五个主要信息：mode（AI 使用模式）、model（使用的 AI 模型）、provider（模型提供方）、reviewed-by（内容审查人）以及 date（生成日期时间）。其中 mode 包含四种值：none（未使用 AI）、ai-modified（人类创作但经 AI 修改）、ai-originated（AI 生成但经人工编辑）、machine-generated（主要由 AI 生成，几乎无人工干预）。该草案目前仍处于草案阶段，尚未成为正式标准，采用完全自愿。

消息来源：Tom’s Hardware

写在最后

这大概是我最后一次更新 Linuxcat 周刊了，由于一些精神和身体原因，我无法继续这项坚持了一年半的“事业”，截至这篇文章，我一共写了48篇关于Linuxcat周刊的文章(包括愚人节和介绍)，我不知道未来是否有人愿意接受周刊，下面写一些我筛选过数万条新闻的经验:

周刊收录的有两种新闻，一种是好玩的(比如某某厂商整了什么新奇的活或者因为某些搞笑的原因炸掉了)，另一种是可能对为未来有影响的，最近几年是AI和机器人
遇到不确定要不要收录的新闻，就不要收录了
我写周刊很大一部分是为了好玩，并没有指望别人看(不知道会不会有人看到这段话)

周刊一开始是为了“接替linux中国硬核老王的每日观察”，后来慢慢变成了现在这样，至于为什么叫linuxcat，只是因为当时想做一个linux中国的社区镜像，想要一个和linux中国格式差不多的域名，而linuxcat.top恰好没有注册，还比较便宜，就选择了linuxcat

最开始些周刊的时候我还是初四的初中生，后来上了高中，在各种阴间时间写过周刊，将近第二天的时候，中午睡觉前，还有很多…

关于我的后续信息，可以在mmeiblog.cn和mei.lv看到

Linuxcat周刊

#AI #网络安全 #OpenAI #ChatGPT #DeepSeek

Linuxcat周刊(第46期) 清华团队发现 ChatGPT 中文词表污染高达 46.6%，含大量色情赌博词汇

https://mei.lv/weekly/bye.html

作者

mei

发布于

2025年8月29日

许可协议

为什么在 Alpine 上编译的 Go 程序依赖 musl?即使 CGO_ENABLED=0 上一篇

使用Gitea Actions+1Panel自动构建并部署Go项目下一篇