GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
简介:随着软件变得越来越复杂且容易出现漏洞,自动化漏洞检测变得至关重要,但也具有挑战性。随着大语言模型(LLMs)在各种任务中取得重大成功,人们对它们在漏洞检测中的效力越来越期待。然而,对它们在漏洞检测中的潜力缺乏定量的理解。为了弥补这一差距,研究者引入了一个全面的漏洞基准VulBench。该基准汇集了来自各种CTF(夺旗)挑战和真实应用程序的高质量数据,为每个易受攻击的函数提供了详细的漏洞类型和其根本原因的注释。通过对16个LLMs和6个最先进的基于深度学习的模型和静态分析器的实验,研究者发现一些LLMs在漏洞检测方面优于传统的深度学习方法,揭示了LLMs在这一领域尚未开发的潜力。这项工作有助于理解和利用LLMs来增强软件安全性。
链接:
https://arxiv.org/pdf/2311.12420.pdf
简介:大语言模型(LLM)在软件渗透测试中具有潜力,能够与人类操作员进行交互,逐步改进特定的安全任务。通过设计输入提示来提供上下文和结构,可以使模型提供更准确的结果。利用LLM构建的AI智能体在软件渗透测试中展现了可行性,并且可以通过反复使用和提示工程的工程方法来进一步改进。
链接:
https://browse.arxiv.org/pdf/2401.17459.pdf
简介:这篇论文介绍了一种名为LLM4SECHW的新框架,利用领域特定的大语言模型(LLM)进行硬件调试。该框架通过编译版本控制数据集,实现了对硬件设计中错误的识别和修正,并在多种开源硬件设计上展示了其有效性。这种方法为其他领域中应用领域特定LLM的微调提供了参考工作流程,并为硬件设计中的自动化质量控制过程带来了新的视角。
链接:
https://browse.arxiv.org/pdf/2401.16448.pdf
简介:该研究对三种最先进的大语言模型(Gemini Pro、GPT-4和GPT-3.5)在549个包含真实代码审查的安全缺陷的代码文件上的检测性能进行了比较。结果显示,LLMs生成的响应存在冗长、含糊和不完整的问题,需要提升其简洁性、可理解性和符合安全缺陷检测的能力。
链接:
https://browse.arxiv.org/pdf/2401.16310.pdf
5.基于覆盖引导强化学习与以大语言模型为基础进行变异的JavaScript模糊测试引擎
简介:本文提出了一种名为CovRL的新技术,该技术将大语言模型与覆盖反馈的强化学习相结合,旨在提高模糊测试的效果。CovRL-Fuzz模糊器通过构建加权覆盖图和计算模糊测试奖励,可以生成更可能发现新覆盖区域的测试用例,从而提高漏洞检测能力,同时最小化语法和语义错误。评估结果显示,CovRL-Fuzz在代码覆盖率和错误发现能力方面超过了当前最先进的模糊器,发现了48个与安全相关的实际错误,其中包括39个以前未知的漏洞和11个CVE。
链接:
https://arxiv.org/pdf/2402.12222.pdf