文章会偏长,因为不仅会体现处理过程和结果,更多想体现的其实是其中思考的过程。
关键字:青年安全圈、公开知识分享者和活跃者。
因为年长的大师傅们受限于工作事业家庭孩子等,很少高频更新技术文章分享知识了。
最初目的:丰富自己
最近读的一篇文章中有句话触动了我,“不要过度focus在自己工作的小领域,要有全局化的眼光,特别是自己的上游和下游”,细细思考了一下,确实有些道理,自己的小领域可以看成是点,上游和下游是线,全局是面,也即是“点-线-面”体系,而以后的职业发展中,肯定是从点->线->面,现在早学习早积累,就能在以后发展的过程中先别人一步,所以笔者打算扩充一下自己的知识库。
平时学习的安全知识数据源主要来源于微信系列和知乎系列,慢慢的深感个人日常安全阅读资源的不足与局限,需要从新的数据源来补充,同时看看其他安全从业者在干嘛。
经过权衡笔者选择了人作为切入点,更具体的来说选择了博客作为切入点。为什么选择博客?而不是选择微博?Twitter?Github?
安全技术博客的优点是:博客内容较Twitter等更完整且详实,阅读与吸收知识门槛较低;博客可以一定程度上刻画博主,因为博客内容含有博主的许多个人公开信息,例如Github、Twitter、Zhihu、邮箱、所属的安全团队、毕业的高校和就业的公司等;博客内容的传播性广,易于知识分享与传播;博客内容能反映博主的主要研究方向,可以聚焦学习。
安全技术博客的缺点是:信息滞后性,Twitter和各大公司预警才是王道。所以总的来说,博客更专注于知识的分享和吸收,其他社交方式更专注于知识的传播。
之后在不断的阅读过程中,觉得独乐乐不如众乐乐,能对外输出点什么呢?这就有了延续性的目的。
延续性目的:方便他人
以人为核心,系统化收集博客、Github、当前主要研究方向、所属安全组织、学校、公司、RSS、知乎、微博、Email等公开信息,缩小安全圈的范围,达到信息检索的目的,通过关键字检索,方便找人,缩小人与人之间的交流障碍。比如通过高校关键字,可以快速找到校友,通过网络ID快速找到博主;达到安全内容学习的目的,例如从主要研究方向入手,Follow不同方向活跃博主,补充阅读资源,紧追安全前沿;达到数据分析的目的,挖掘人与人之间的社交网络,同时判断自己当前所处位置,指引未来发展方向。
数据采集
重点思考了一下从哪采?如何采?怎么保证数据的准确性和及时性?可能存在的问题?
采集的起始点应该选择具有一定影响力辐射范围广的安全人员/安全组织/安全门户等站点,安全门户比如sec-wiki上的安全网址聚合,亲测了一下发现很多数据的及时性不好(及时性这点也给后续工作埋了坑),都是老数据,无法访问了。最终选择了L Team作为起始采集点,原因有三,一是L在青年安全圈较为知名,二是L Team薪火相传,团队成员上到工作几年的冷夜师傅和P师傅,下到目前大二大三大四的师傅们,无论是年龄还是技术覆盖范围都很广,而且许多成员都是安全圈活跃的技术大佬,三是团队成员多,可用的采集起点很多。
那么如何采集呢?写爬虫自动化爬吗?不太现实,原因有几点:1、如果是少数几个站点,可以针对站点结构有针对性写个爬虫爬数据,这点碳基体师傅已经实现并分析过了《从内容产出看安全领域变化》;2、相对于碳基体师傅的安全趋势分析,本文侧重点在人,需要精细化数据和处理,预期想获取的数据格式是
笔者在跟着学习的,笔者觉得不错推荐的,索引ID,网络ID,活跃的博客链接,个人(1)/团队(2)/公司(3)博客,友情链接的索引ID,Github地址,微博地址,主要研究领域,所属安全团队,所属高校/公司,技能标签(PHP?Python?Java),人物标签(摄影?动漫?文艺),RSS订阅地址,推特地址,知乎地址,邮箱地址,联系方式(QQ?微信?),著名开源项目
能自动化准确的及时的爬到这些的怕是只有google?回想到笔者的本意其实是阅读和吸收安全知识,为何不“人工智能”在进行“深度学习”和广度学习阅读吸收的同时顺手采集预期信息呢,这样也就保证了数据的准确性和暂时的及时性。
当笔者花了快一个月时间大致浏览完了500+个安全博客,筛选出了450个较优质且目前还活跃的博客后,笔者发现囫囵吞枣硬塞到脑子里的知识都要溢出来了,本来一点不懂二进制安全的,现在也知道一些常见操作了,本来不跟进最新漏洞的,也知道最近哪些漏洞最火了,对青年安全圈整体的水平也有了粗浅的理解。
可能存在的问题主要有二:一是受限于采集策略(采集起点,判断是否是活跃安全技术博客的策略等)和不可控因素(网站在墙内墙外的可访问状态,网速,域名ip变更等),最终采集的数据一定只是局部数据,不代表整体,就像p师傅指出的那样,“数据是最新的,不过可能和美国大选的民调一样,你调查的人几乎都是会接受采访的人,导致很多人被忽略了,得出相反的结论”。二是不能自动化爬取的话,数据以后的及时性无法保证。
数据分析
首先分析一下安全人员的个人属性,比如网络ID、Blog SSL、CTF和主要研究方向。
统计已有的数据可以发现,大约90%的安全人员习惯使用小于10个字符的网络ID
同时大约有三分之一安全人员的网络ID常用字母+数字组合
笔者有一个直观的感觉是很多CTF大佬的ID都是字母+数字组合,那么字母+数字组合是不是CTF的标志呢?
可以看出五五开,不是一个明显标志。
在采数据的过程中发现很多师傅们都用了HTTPS(专业),经过统计有63.5%的师傅们用了HTTPS,在没换HTTPS的师傅们中,发现有42%是打CTF的师傅们,分析了一下大多还是在校本科生。
另外有44.4%热爱知识记录、分享和传播的安全人员打过CTF,看来CTF或已经成为青一代安全人员的必修课,同时CTF选手更活跃于在博客写技术文章(writeup来凑QaQ)。当然也可能是数据本身造成的问题,这个之前提到了,可能爬取的数据陷入到了某个局部中,不能代表整体。
笔者根据个人理解,在阅读博客文章时对博主们的主要安全研究方向打了标签,分析了一下青一代安全人员的研究方向分布现状,这里列出其中部分数据
可以看到现阶段青一代安全博主的研究方向主要集中在CTF、Web安全、安全研究、漏洞分析、代码审计等应用安全方向,做逆向、PWN、安全开发、企业安全建设、机器学习等方向的青年安全人员还比较少。
再分析一下安全人员的组织结构,比如:Blog友情链接、安全团队、所在高校。
从Blog友情链接关系看安全人员结构,使用入度作为标签尺寸的衡量标准,发现P师傅简直是个黑洞,可以得到:P师傅牛逼(破音),同时得到在博客这个渠道,青一代最有影响力的安全技术公开分享者可能是P师傅。
说可能的原因有几点:一是如果不是选L Team作为采集起点,毕竟L Team和p师傅紧密相关,而选用其他安全站点作为起点的话,结果会不会还是一样的呢?猜想一下,如果从另一个入口作为采集起点的话,那么很可能还是会被P师傅这个黑洞所吸引?!除非有更大的黑洞?二是有很多师傅的博客都没挂友链或是在默默发育,比如rr师傅,你能说rr不open,没有影响力吗?显然是不能的,安全圈谁不认识rr(rrtql),再比如鬼才evil7师傅,博客挂了好像,显然也没能体现出来。
从安全人员所属高校看安全人员结构,明面上的数据有近30%的安全人员在博客中注明了所属高校,他们主要是西安电子科技大学、成都信息工程大学、电子科技大学、杭州电子科技大学、厦门大学、武汉大学、山东科技大学、南京邮电大学、北京邮电大学、东南大学等。可以看到都是很厉害的高校,这是否一定程度上代表着青一代安全已经进入了高学历的深水区?!虽然从博客入口得到的数据只是青年安全圈公开活跃、公开知识分享人员的一部分。
看一下高校聚类的结果
可以看到,虽然是从西安电子科技大学L Team作为起点,但还是被成都信息工程大学这个大黑洞所吸引。成信大牛逼,学习网络安全,欢迎报考成都信息工程大学。
再带上高校标签看一下安全博主博客友链之间的关系:
西电的当家双花旦是P师傅和冷夜师傅,成信大的三大研究员l3mon柠檬师傅、Tomato师傅、AppLeU0师傅,杭电的veritas501师傅、电子科大的Cyru1s打通两校安全连接,山科大的p0desta和p0破带头冲锋,厦大的chybeta认识成电的小姐姐(xmsl),等等,其中关系错综复杂,许多意料之外,但又在情理之中。这部分可以给出的有价值信息是:Follow这些骨干节点博主的博客,跟着大师傅们学习!!
从安全组织看,r3kapig、Nu1L、XDSEC、Sysclover四大组织活跃人数众多。
最后从安全人员的结果产出角度分析一下数据,比如Github、RSS。
不仅从博主们的博客内容中可以学到很多安全知识,博主们的Github也有很多有意思的项目,笔者根据这些师傅们的Github地址,收集整理了一批star数在三位及以上的优质项目资源,笔者把它叫做Github&&大安全。Github安全相关项目主要分为两类,知识和工具,有很多师傅们总结了例如内网渗透的知识库、Web安全的知识库、企业安全建设的工具集合或是单个的某小方向安全工具,Github&&大安全旨在做一个优质安全项目的大索引。
针对博主们博客的RSS,我们也可以做很多有意思的事,可以集中导入RSS阅读器,也可以有针对性的导入,比如根据研究方向/安全团队/高校挑选RSS数据导入阅读器,其中的研究方向不只Web安全这种大方向,笔者还做了精细化处理,标记了Java代码审计、安全开发、域渗透、IoT安全、Windows安全、区块链安全等细分方向和小众方向。
持续产生价值
第一,一次性扩充了自己的视野和知识库,以人为核心,理解了青年安全从业者及其安全研究工作。
第二,挑选了24个现阶段和未来一段时间适合自己补充学习的安全博客,规划指导自己的学习。
第三,精挑细选分研究方向标记了36个高频更新、质量不错的安全博主和博客,持续关注,这些博主都是每个方向具有代表性的师傅,有渗透测试、漏洞分析、入侵检测、CTF、逆向、PWN、代码审计、无线安全、Web安全、主机安全和安全研究方向,虽然和这些博主可能不是同一个方向,但是还记得文章开头时候说过的吗?不仅要focus在自己的领域,还要有全局视角。已经用Star字段标记了。
最后,给出了一份价值较高的原始数据,读者可以自行利用这批数据做很多有意思的事情,信息检索,内容学习,数据分析。
为了移动端随时查阅数据,做了个自用的小程序,比如在安全的群里看到一个ID,就可以检索信息,提高效率。
Ref
-
安全圈有多大?也许就这么大!- gainover
-
安全博客友链数据分析可视化
-
tanjiti / sec_profile
-
CyberSecurityRSS
原文始发于微信公众号(404 Not F0und):我分析了2018-2020年青年安全圈450个活跃技术博客和博主