Linuxcat周刊(第46期) 清华团队发现 ChatGPT 中文词表污染高达 46.6%,含大量色情赌博词汇
正文
1 清华团队发现 ChatGPT 中文词表污染高达 46.6%,含大量色情赌博词汇
清华大学、南洋理工大学和蚂蚁集团的研究人员发现,GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文词表污染高达 46.6%,包含「波*野结衣」、「大发时时彩」、「大发快三」等色情、赌博相关词元。研究团队对 OpenAI 近期发布的 GPT-5 和 GPT-oss 词表分析显示,其中文 token 没有变化。
研究团队定义了中文污染词(PoC tokens)概念,并将其分为成人内容、在线赌博、在线游戏、在线视频、奇怪内容等 5 个类别。专家标注团队对 ChatGPT 模型的 1659 个中文长词进行标注,发现污染词达 773 个,其中成人内容污染词最多,有 219 个。实验显示,输入中文污染词会导致 ChatGPT 在解释和重复任务上出现约 50% 的性能损失。研究团队还构建了自动化中文污染词识别模型,达到 97.3% 的识别正确率,并通过词表污染估计训练数据污染情况。
2 OpenAI联创Greg Brockman:规模假说源于意外发现,ChatGPT模式是不得已选择
在Stripe播客中,OpenAI联合创始人兼总裁Greg Brockman透露了AI发展的关键内幕。他表示规模假说并非OpenAI的初始战略,而是2017年在Dota 2项目中意外发现——每当计算资源翻倍,AI表现就相应提升,这一发现彻底改变了AI研究方向。
Greg强调AI项目需要”过程导向”而非”结果导向”,因为AI结果不可控。关于GPT-3产品化,团队最初感到绝望,因为做API违背传统创业原则,但技术足够强大时市场会自己找到出路。他预测AI将在2-5年内解决千禧年数学难题,能源将成为AI发展主要瓶颈,数据墙问题已通过合成数据等新方法突破。
3 RAR 压缩文件内文件名成“武器”:逃避杀毒软件检测、触发 Linux 恶意文件
网络安全公司 Trellix 昨日(8 月 24 日)披露,近期网络上出现了针对 Linux 的新型攻击链,通过钓鱼邮件传播开源后门 VShell。攻击利用恶意 RAR 压缩包中文件名嵌入的 Bash 命令实现自动执行,并绕过杀毒软件文件扫描。
该技术利用了 shell 脚本在处理文件名时缺乏输入清理的漏洞,例如使用 eval 或 echo 时可能无意执行任意代码。由于杀毒引擎通常不会扫描文件名,这种方式能够绕过传统防御机制。
在被 shell 解析时,如“ziliao2.pdf{echo,<Base64-encoded command>}|{base64,-d}|bash
“”恶意文件名会触发执行下载器,从外部服务器获取适配架构的 ELF 安装文件。
消息来源:IT之家 | LoopDNS资讯播报
4 挪威证书颁发机构 Buypass 宣布停止签发 TLS/SSL 证书
挪威证书颁发机构 Buypass 宣布,将于 2025 年 10 月 15 日起停止提供 TLS/SSL 证书服务。该公司表示,这一决定基于对市场状况和证书颁发监管框架的全面评估,主要原因包括国际市场竞争激烈、免费证书普及导致收入下降,以及监管要求不断提高带来的投资成本增加。此前 Buypass 的免费 ACME(GoSSL)证书有效期为 6 个月(180 天),较业内常见的 90 天更长;随着此次调整,该免费服务也将随之终止。
现有的 TLS/SSL 证书将保持有效直至到期或被撤销,撤销服务和证书状态服务将正常运行。Buypass 的企业证书服务将继续提供,其他身份认证和数字签名解决方案不受影响。根据时间表,2025 年 10 月 31 日为最后证书签发日期,2026 年 10 月 31 日为 TLS/SSL 证书最后到期日。
5 DeepSeek V3.1 出现严重 bug:输出内容随机插入「极」字
DeepSeek V3.1 模型被发现存在严重输出错误,会在生成内容中随机插入「极」字,导致模型无法正常用于编程或结构化输出工作。该问题最初在火山、chutes 等第三方 API 平台上被发现,但经测试官方网站同样存在此问题。
分析显示,「极」字对应的 token 编号为 2577,与省略号的 token 编号 2576 相邻,可能与数据集清理不当或模型”偷懒”行为有关。目前官方平台出现该 bug 的概率相对较低,但第三方平台概率显著增加,可能与量化、部署配置或设备差异相关。一旦出现该问题,后续输出中「极」字出现频率会进一步增加。
6 互联网工程任务组发布草案:网页将添加 AI 内容披露标头字段,以便更容易确定网页是否使用了人工智能
互联网工程任务组(IETF)近日发布了一份草案文件,提议为网页引入新的标头字段,以便更容易确定网页是否使用了人工智能。根据《AI 内容披露标头》草案,这一拟议的元数据将使机器更容易确定 AI 如何参与特定网站的制作,从而实现更便捷的自动化、索引和合规性检查。
该标头将包含五个主要信息:mode(AI 使用模式)、model(使用的 AI 模型)、provider(模型提供方)、reviewed-by(内容审查人)以及 date(生成日期时间)。其中 mode 包含四种值:none(未使用 AI)、ai-modified(人类创作但经 AI 修改)、ai-originated(AI 生成但经人工编辑)、machine-generated(主要由 AI 生成,几乎无人工干预)。该草案目前仍处于草案阶段,尚未成为正式标准,采用完全自愿。
消息来源:Tom’s Hardware
写在最后
这大概是我最后一次更新 Linuxcat 周刊了,由于一些精神和身体原因,我无法继续这项坚持了一年半的“事业”,截至这篇文章,我一共写了48篇关于Linuxcat周刊的文章(包括愚人节和介绍),我不知道未来是否有人愿意接受周刊,下面写一些我筛选过数万条新闻的经验:
- 周刊收录的有两种新闻,一种是好玩的(比如某某厂商整了什么新奇的活或者因为某些搞笑的原因炸掉了),另一种是可能对为未来有影响的,最近几年是AI和机器人
- 遇到不确定要不要收录的新闻,就不要收录了
- 我写周刊很大一部分是为了好玩,并没有指望别人看(不知道会不会有人看到这段话)
周刊一开始是为了“接替linux中国硬核老王的每日观察”,后来慢慢变成了现在这样,至于为什么叫linuxcat,只是因为当时想做一个linux中国的社区镜像,想要一个和linux中国格式差不多的域名,而linuxcat.top
恰好没有注册,还比较便宜,就选择了linuxcat
最开始些周刊的时候我还是初四的初中生,后来上了高中,在各种阴间时间写过周刊,将近第二天的时候,中午睡觉前,还有很多…
关于我的后续信息,可以在mmeiblog.cn
和mei.lv
看到