特大号昨天发了一篇“串标翻车”的文章,里面有一段‘四、文件属性”出卖了”你’
两家公司应答文件文档属性中作者一致,存在串标行为
两家公司应答文件部分内容高度雷同,存在串标行为
两家公司应答文件的最后一次保存者一致,存在串标行为
两家公司报价文件标题均为“附件一:”,作者均为“王者”,存在串标行为
三家公司的采购文件格式、排版及服务方案内容存在高度异常一致,存在串标行为
两家公司报价表中格式、附图完全一致,存在串标行为
如果标书用Word来编辑,确实会泄露很多信息,而且很多人不知道。这个问题最大的其实是因为Word所见即所得的特性,隐藏了很多细节。
如果你默认安装Word后,不做任何设置,你很多信息会看不到。而且Word不像LaTex,或者Markdown,可以让你控制源代码编辑,你的文档有可能被塞入一些奇怪的东西。
如果你提交是打印后的版本,所见即所得可能不会泄露什么内容,但是如果你提交的是电子版就会。
Docx实际上是个压缩包
如果你把docx后缀名改成zip,你就可以解压并且看到很多文档,以我做的论文模板为例:
目录很清晰,你所有的文本内容都在document.xml这个格式化文件里面,footer和header是页眉页脚设置,图片在word/media里,比如里面image1.png是校徽,image2.png是例子的图,这经常被我用来直接拷贝一个大文件里面的图片,或者PowerPoint文档里的图片。
因为是压缩包,就有可能有很多奇怪的东西。
我就打开Docx,打印一下,关闭,没有任何其他操作,Word为什么要提示我保存?
这个步骤看起来没有任何“变化”,对文档没有更新的操作,但是Word底层实际上做了很多其他工作。Word的页码是动态生成的,在Docx文档里面可以看到,他不会保存页码(可能会保存最后一次页码的缓存),所以有时候打开一个大文档,感觉会很慢,因为Word可能在重排整个文档的页码。
所以在你打开Word后,选择打印,因为你的打印机的设置,Word要重新计算很多值,打印完成后,整个文档实际上在底层已经变化了,所以他会提示你保存。
然而你一旦选择了保存,cp:lastPrinted这个值就会变化,并且最后保存着就会变成你。
这就是为什么打印店小妹要来背锅的原因。
隐写术
我们经常在影视作品里看到隐写术,古老的隐写术是使用特殊的墨水或染料。这些特殊墨水可以在某些条件下显示出来,例如在紫外线照射、加热导致温度影响、接触水分或其他特定的化学反应下显现。
现在是数字化时代,花样更多了。
利用Word对用户进行画像
你敢在简历里写,精通Office,只要给我一个你写的大文档,我可以全方位对你进行画像,给你打分。一般人分数不会高。
-
文件名都起不好的:标题一定要长,要在标题把信息写清楚,比如“论文标题-学号-作者.docx”。比如一个项目申请表,“项目名-学校名称-作者-日期.docx”,但是有些人他就是不注意,你给他“XX项目申请表.docx”,他会还给你一个“xx项目申请表.docx”。你下载下来再也无法分清到底是空表还是填写了内容的表。但是标题也不能太长,我们经常在微信里面看到一个文件,由于标题太长,微信显示不了太多信息,导致关键内容被隐藏的。比如“论文标题-学号-作者-v20240528(2)(3).docx”,这种的,“(2)(3)”是微信自动加的,但是最关键的版本信息v可能就看不到的。
-
内容:内容是最直观的,这也是大部分人都可以识别的。比如错别字,比如Word已经波浪线提示你语法不对,拼写不对还是不改的,比如专有名词大小写不规范的。
-
AIGC痕迹未消除:把AIGC的内容不做任何修改,直接拷贝到文档。AI会写得很全面,也会有一些固定句式。
-
其他诸如不正确引用、抄袭。这个一般得通过查重工具才能查到。
-
内嵌Excel透视图,未删除原始数据。
-
审阅、批注没有清理的。你可以试着去办公自动化OA系统去下载一些文档来看看,可能就有很多过程审阅数据没有消除。
-
反推Word设置的:通过图片的清晰度反推出你的Word的设置,通过OOXML查看使用的Word的版本信息等。如果还在用doc文件,那Word版本一定非常非常老。
-
从互联网或者别的文档拷贝的:有些明显是从互联网拷贝的,Word会帮你加上“普通(网站)”样式。所以拷贝,一定要记得,永远使用纯文本黏贴。
-
查看文档属性:创建者,保存者,使用的模板。这个在我 OA模板里面有提到 Word样式的使用和公文模板下载(最终版) ,会泄露模板目录位置。
-
直接格式:直接格式(Direct formatting)是指不使用样式,而是直接对单独的段落、单词、甚至字符应用格式。Word会自动收集整篇文档的所有格式,并且帮你显示出来,方便你对这些直接格式进行命名并在未来重用。一篇文档如果编辑得好,应该没有任何直接格式,只有命名样式。要查看是否有直接格式,可首先将样式窗格选项设置为“段落级别格式”“字体格式”均显示为样式,然后在样式窗格内观察样式名称为“xxx + xxx”的。下面这个图是一篇不规范的例子。
-
是否正确使用样式、大纲、多级列表的。排版很乱的,这也是大部分人丢分的地方。
怎么最大限度地解决Word信息泄露的问题
除了前面提到的一些可能泄露信息的问题外,可以用新版Word自带的文档检查器来检查,可以解决很大一部分问题。
文档检查器、Document Inspector
Word 文档可以包含以下类型的隐藏数据和个人信息:
批注、修订中的修订标记、版本和墨迹注释 如果已与其他人协作创建文档,文档可能包含修订、批注、墨迹批注或版本的修订标记等项。此信息可以让其他人查看处理文档的人员的姓名、审阅者的评论和对文档所做的更改,以及你可能不希望在团队外部共享的内容。
文档属性和个人信息 文档属性或元数据包括有关文档的详细信息,例如作者、主题和标题。文档属性还包括由 Microsoft 365 程序自动维护的信息,例如最近保存文档的人员的姓名和文档的创建日期。如果使用了特定的功能,您的文档还可能包括其他类型的个人身份信息 (PII),例如电子邮件标题、请求审阅信息、传送名单和模板名称。
页眉、页脚和水印 Word 文档可以包含页眉和页脚中的信息。此外,你可能已向 Word 文档添加了水印。
隐藏文本 Word 文档可以包含格式化为隐藏文本的文本。如果不知道文档是否包含隐藏文本,可以使用 文档检查器 进行搜索。
文档服务器属性 如果文档已保存到文档管理服务器上的某个位置,例如文档工作区网站或基于 Windows SharePoint Services 的库,则该文档可能包含与此服务器位置相关的其他文档属性或信息。
自定义 XML 数据 文档可能包含在文档本身中不可见的自定义 XML 数据。文档检查器 可以找到并删除此 XML 数据。
图中的“上次修改者”guest是我,为了避免麻烦,我的Word配置我的名字就是guest。
但是要注意下面:
注意: 此检查器不能检测使用其他方法隐藏的文字(例如,白色背景上的白色文本)。
注意: 该检查器无法检测被其他对象覆盖的对象。
样式名的清理
以我OA的模板为例,我就加了一个没用的样式名“v20230409-样式版本”。
前几年我在阅读一个厂商输出的报告,在样式里面发现了另外一个厂商的名字,一问,才知道,这个厂商创始人是从另外那个厂商毕业的,沿用了人家的模板。
原文始发于微信公众号(郑海山dump):Word的信息泄露