谷歌开源了 Magika,这是一种内部机器学习驱动的文件标识符,作为其人工智能网络防御计划的一部分,该计划旨在为 IT 网络防御者和其他人提供更好的自动化工具。
找出用户提交文件的真实内容可能比看起来更难。谷歌认为,从文件扩展名来假设文件类型是不安全的,并且依靠启发式和人为规则(例如广泛使用的libmagic中的规则)来从数据中识别文档的实际性质是不安全的。 ,“耗时且容易出错。”
基本上,如果有人将 .JPG 上传到您的在线服务,您需要确保它是一张 JPEG 图像,而不是一些伪装成该图像的脚本,这些脚本稍后可能会给您带来麻烦。Magika 登场,它使用训练有素的模型从文件数据中快速识别文件类型,Big G 认为这种方法足够适合在生产中使用。据我们所知,Gmail、Google Drive、Chrome 的安全浏览和 VirusTotal 使用 Magika 来正确识别和路由数据以进行进一步处理。
你的旅费可能会改变。Libmagic 就是其中之一,可能足够适合您。无论如何,Magika 是谷歌内部使用人工智能来加强其安全性的一个例子,并希望其他人也能从这项技术中受益。另一个例子是RETVec,它是一种用于检测垃圾邮件的多语言文本处理模型。与此同时,我们都被警告说,不法分子显然更多地利用机器学习软件来自动化入侵和漏洞研究。
[ 编辑: lily ]