cdxy.me
Footprints on Cyber Security and Python

C2:偏斜分布

  • 不确定性是大自然固有的,可以观测到的现象只是一些随机的映像,概率分布才是真实的东西——重力加速度的测量
  • 数学上一切以人命名的概念都不是以发现者的名字命名的。
  • 举例并不是证明——达尔文无法举出在人类历史上新出现的物种——用于证明“新物种产生的原因是适者生存”

C3:亲爱的戈塞特先生

  • 我们测量的是样本中酵母细胞的数量,但我们研究的真正对象是整个罐子里的酵母细胞浓度。由于酵母是活的,细胞又在不断繁殖分裂,因此这个”对象”实际上并不存在,现实中存在的仅仅是单位容积内酵母细胞的概率分布——泊松分布。
  • 尽管戈塞特做了许多谦虚的声明,但这个领域许多影响深远的重大贡献都是他一个人做出来的。

C5:收成变动研究

  • 当其他人争执不休时,费希尔坐在那里,静静地吸着烟斗,等待着说话的机会。“随机化。”他开口了——方差分析
  • 我们应该对年轻的科学家提出提醒和建议:当他想要为人类的知识宝库献上一颗宝石的时候,他一定会受到某些人的攻击。

C6:百年一遇的洪水

  • 棉线的断裂取决于其中最弱一根纤维的强度——极值分布

C11: 假设检验

  • 频数学派——大数定律——拥有固定概率的相同试验不断进行,结果拟合于理论概率

C13:贝叶斯的“异端邪说”

  • 所有概率都是有条件的——条件概率——对于不同的先决条件,某一指定事件的概率是不同的。
  • 人们发明”概率”一词就是为了描述人类对不确定性的感知。
  • 贝叶斯方法:先验概率->数据->后验概率

C14:数学界的莫扎特

  • 天才的秘密在于长久的青春,青春有许多特征,其中之一就是激情。
  • 概率的定理和方法实现了完全的自洽。

C17:部分优于整体

  • 机会样本:最容易获取到的数据,并不一定真正代表整个分布
  • 判断样本:用关于总体的现有知识选择少量数据代表总体中的不同群体
  • 发票显示劳工统计局想哈佛大学订购了“一个逆矩阵”

C18:吸烟会致癌吗

  • 原因和结果意味着什么
  • A引起B的符号
  • 发表性偏倚——实质蕴涵

C20:单纯的德州农家孩子

  • 公理背后没有言明的假设
  • 给这个孩子发一枚铜币,他似乎一定要从自己学到的知识中获得某种利益

C21:家族中的天才

  • 数据的“真正维度”常常不超过5维——投影寻踪方法

C25:黑衣女子的建议

  • 如果我们只是对一个普通人说”P小于0.0001”,那么他并不能领会到我们想表达的意思。我们必须用他们的语言来解释我们的发现,我们必须培养说服别人的能力。

C29:建立在沙土上的摩天大厦

  • 现实是非常复杂的,人们构造的科学模型永远无法完整地描述现实。
  • 哲学关注的是我们日常生活中的文化思想和活动背后的基本假设——人类堕落假设。
  • 它们所研究的概率分辨率已经超出了人类的感受能力。

检测产品的价值不应由检测率和误报率衡量,而应由响应率衡量

模型能力的建设固然重要,但模型的可解释-可复现特性在另一个侧面影响了响应率。

对告警信息,运营人员通常只能做出两种决策:1)调查 2)不调查(可视作二值化算法)。我们应该如何对数据加以解释,使之更好的辅助决策?

  1. 输出概率——此模型准确率在90%左右。
    事实上,这个数字仅是自己视野范围内小数据的统计结果,是否能够代表真实环境(大数据)的表现?是否能够在另一份小数据上获得相同的效果?

  2. 概率+事件空间——此模型在XXX数据集测试中获得90%准确率。
    paper中的用法,解释了统计结果的来源,给出了不同模型的评判标准。但这个数字是否能够辅助决策?

  3. 输出概率排序
    事实上决策者无需知道事件的精确数值,只需知道事件的概率排序。但实际的决策顺序并非只有模型的准确性一个维度决定,还有运营资源、威胁的严重程度等(或许一个可能发生的内网蠕虫要比一个确定的self-xss要优先运营)。

  4. 降低分辨率
    在"二值化决策"的过程中,90%和75%对于运营者的感知差异并不是很大。这种"分辨率"过高的统计结果可压缩为一个简单的概率模型,从而让绝大部分人在二值化决策中保持一致:
    1)绝对正确
    2)正确的可能性比错误高
    3)正确的可能性与错误相同
    4)正确的可能性比错误低
    5)绝对错误

就目前的产品形态,模型告警均以"绝对正确"的假设传递给用户。