فازینگ جعبه‌ خاکستری هدایت ‌شده (Directed Greybox Fuzzing یا DGF) رویکردی مؤثر است که با استفاده از نقاط هدف از پیش‌ تعریف‌ شده، برای تقویت آزمون نواحی آسیب‌پذیر کد طراحی شده است. روش‌های پیشرفته DGF با بازتعریف و بهینه‌سازی معیار برازندگی (fitness metric) تلاش می‌کنند به‌صورت دقیق و سریع به نقاط هدف برسند. با این حال، بهینه‌ سازی‌های معیار برازندگی عمدتاً بر الگوریتم‌های ابتکاری متکی هستند که معمولاً به اطلاعات اجرای گذشته وابسته‌اند و دیدی نسبت به مسیرهایی که هنوز اجرا نشده‌اند ندارند. در نتیجه، مسیرهای دشوار برای اجرا که دارای قیود پیچیده‌اند می‌توانند مانع رسیدن DGF به اهداف شوند و کارایی آن را کاهش دهند.

ما در این مقاله، DeepGo را معرفی می‌کنیم؛ یک فازر جعبه ‌خاکستری هدایت ‌شده پیش‌بینانه (predictive directed grey-box fuzzer) که می‌تواند اطلاعات تاریخی و پیش‌بینی ‌شده را با هم ترکیب کند تا DGF را از طریق یک مسیر بهینه به نقطه هدف هدایت کند. ابتدا، مدل انتقال مسیر (path transition model) را پیشنهاد می‌دهیم که DGF را به‌عنوان فرایندی برای رسیدن به نقطه هدف از طریق دنباله‌های مشخص انتقال مسیر مدل‌سازی می‌کند. بذر (seed) جدیدی که در اثر جهش (mutation) تولید می‌شود باعث وقوع گذار مسیر می‌گردد، و مسیری که متناظر با توالی گذار مسیر با پاداش بالا است، نشان‌دهنده احتمال بالای رسیدن به نقطه هدف از طریق آن مسیر است.

سپس، برای پیش‌بینی گذارهای مسیر و پاداش‌های متناظر با آن‌ها، از شبکه‌های عصبی عمیق استفاده می‌کنیم تا محیط ترکیبی مجازی (Virtual Ensemble Environment یا VEE) را بسازیم؛ محیطی که به‌تدریج مدل گذار مسیر را تقلید کرده و پاداش گذارهایی را که هنوز طی نشده‌اند پیش‌بینی می‌کند. برای تعیین مسیر بهینه، یک مدل یادگیری تقویتی برای فازینگ (Reinforcement Learning for Fuzzing یا RLF) توسعه می‌دهیم تا توالی‌های گذار با بیشترین پاداش تجمعی را تولید کند. مدل RLF می‌تواند گذارهای مسیر تاریخی و پیش‌بینی‌شده را ترکیب کرده و توالی‌های گذار مسیر بهینه را به‌همراه سیاستی برای هدایت راهبرد جهش در فازینگ تولید کند.

در نهایت، برای اعمال توالی گذار مسیر با پاداش بالا، مفهوم گروه کُنش (action group) را معرفی می‌کنیم که مراحل کلیدی فازینگ را به‌صورت جامع بهینه‌سازی می‌کند تا مسیر بهینه برای رسیدن کارآمد به هدف محقق شود. ما DeepGo را روی دو مجموعه معیار شامل ۲۵ برنامه با مجموع ۱۰۰ نقطه هدف ارزیابی کردیم. نتایج آزمایش‌ها نشان می‌دهد که DeepGo در رسیدن به نقاط هدف به‌ترتیب نسبت به AFLGo، BEACON، WindRanger و ParmeSan بهبود سرعت ×3.23، ×1.72، ×1.81 و ×4.83 را به‌دست می‌آورد و در آشکارسازی آسیب‌پذیری‌های شناخته‌ شده نیز به‌ترتیب ×2.61, ×3.32, ×2.43 و ×2.53 افزایش سرعت دارد.

1. مقدمه

فازینگ جعبه ‌خاکستری هدایت ‌شده (Directed Greybox Fuzzing یا DGF) [9] یک تکنیک کارآمد است که برای آزمون نواحی آسیب‌پذیر کد طراحی شده است. با تعریف یک معیار برازندگی (fitness metric) قابل اندازه‌گیری، فازر جعبه‌ خاکستری هدایت‌شده می‌تواند بذرهای (seed) امیدوارکننده را انتخاب کرده و فرصت‌های جهش بیشتری به آن‌ها بدهد تا به‌تدریج به نقطهٔ هدف نزدیک شوند.

برای مثال، بر اساس اطلاعات گراف فراخوانی (Call Graph) و گراف جریان کنترل (Control-Flow Graph) برنامه تحت آزمون (Program Under Test یا PUT)، روش‌های رایج DGF از فاصلهٔ بین ورودی‌ها و نقاط هدف به‌ عنوان معیار برازندگی برای کمک به انتخاب بذر و تخصیص انرژی بذر استفاده می‌کنند. بذرهایی که به نقطهٔ هدف نزدیک‌تر هستند، به‌ عنوان بذرهای امیدوارکننده در نظر گرفته شده و در اولویت قرار می‌گیرند.

DGF بیشتر زمان خود را صرف رسیدن به این مکان‌ها می‌کند، بدون آنکه منابع را برای تحت فشار قرار دادن بخش‌های نامرتبط هدر دهد؛ بنابراین، این روش به‌ویژه برای سناریوهای آزمون مانند آزمون وصله (patch testing) [59]، بازتولید باگ [54] و اعتبارسنجی کدهای بالقوه معیوب [82] بسیار مناسب است.

برای تقویت جهت‌مندی و بهبود کارایی، پژوهش‌های پیشرفتهٔ DGF از روش‌های ابتکاری برای بازتعریف و بهینه‌سازی معیارهای برازندگی استفاده می‌کنند. برای نمونه، برخی تکنیک‌های DGF معیار برازندگی را بر اساس شباهت رد اجرا (مانند Hawkeye [15])، شرایط داده‌ای (مانند CAFL [40]) و اطلاعات جریان داده (مانند WindRanger [22]) بازتعریف می‌کنند. برخی فازرهای هدایت‌شده نیز از رویکردهای مبتنی بر توالی برای افزایش جهت‌مندی بهره می‌برند؛ مانند گسترش توالی هدف داده‌شده (مانند Berry [44]) و استفاده از توالی استفاده‌ پس‌ از‌ آزادسازی (use-after-free) به‌عنوان راهنما (مانند Lolly [30]). همچنین، برخی تکنیک‌های DGF با هرس مسیرهای غیرقابل‌دسترس به هدف (مانند BEACON [31]) و ساخت اوراکل قابل پرس‌وجو برای هدایت فازینگ (مانند MC² [67]) کارایی را بهبود می‌دهند.

با این حال، در فرایند فازینگ، جهش بذرها (mutation of seeds) موجب عدم قطعیت در مسیر اجرای برنامه می‌شود. روش‌های ابتکاری موجود معمولاً به اطلاعات اجرای تاریخی متکی هستند و فاقد توان پیش‌بینی مسیرهایی‌اند که تاکنون اجرا نشده‌اند. برای نمونه، هنگامی که فاصله در سطح بلاک پایه (Basic Block) تا نقطهٔ هدف به‌عنوان معیار برازندگی (Fitness Metric) استفاده می‌شود، بذرهایی با فاصلهٔ کوتاه‌تر در اولویت قرار می‌گیرند، بدون آن‌که امکان‌پذیری مسیر در نظر گرفته شود. در نتیجه، مسیرهای دشوار برای اجرا که دارای قیود پیچیده هستند، مانع از رسیدن فازینگ هدایت‌شدهٔ خاکستری (DGF) به نقاط هدف می‌شوند و کارایی آن را کاهش می‌دهند.

ازاین‌رو، در این مقاله هدف ما طراحی یک فازر خاکستری هدایت‌ شدهٔ پیش‌بینانه (Predicted Directed Greybox Fuzzer) است که قادر باشد اطلاعات حیاتی اجرای برنامه را پیش‌بینی کرده و مسیر بهینه را تخمین بزند. با ترکیب اطلاعات اجرای تاریخی و اطلاعات اجرای آیندهٔ پیش‌بینی‌شده، فازر می‌تواند به‌صورت هوشمند مسیر بهینه و امکان‌پذیر برای رسیدن به نقطهٔ هدف را تولید کند. با اجتناب از مسیرهای غیرقابل اجرا یا دشوار برای اجرا، فازر می‌تواند با دقت و کارایی بالاتری به نقطهٔ هدف دست یابد.

برای این منظور، ما DGF را به‌عنوان فرایندی برای رسیدن به نقطهٔ هدف از طریق توالی‌های مشخصی از انتقال مسیر مدل‌سازی می‌کنیم و این مدل را مدل انتقال مسیر (Path Transition Model) می‌نامیم. بذرهای جدیدی که از طریق جهش (Mutation) تولید می‌شوند، موجب ایجاد انتقال مسیر می‌گردند. ما از پاداش آنی (Immediate Reward) برای ارزیابی تأثیر مستقیم انتقال‌های مسیر بر عملکرد فازر استفاده می‌کنیم. همچنین، از پاداش توالی (Sequence Reward) برای سنجش میزان دشواری رسیدن به نقطهٔ هدف از طریق یک توالی از انتقال‌های مسیر بهره می‌بریم. مسیری که متناظر با یک توالی انتقال مسیر با پاداش بالا باشد، نشان‌دهندهٔ احتمال بالاتر رسیدن به نقطهٔ هدف از طریق آن مسیر است.

در مقایسه با روش‌های ابتکاری (Heuristic) پیشین، این مدل میزان دشواری رسیدن به نقطهٔ هدف از طریق توالی‌های مختلف انتقال مسیر را به‌طور صریح در نظر می‌گیرد. افزون بر این، با تحلیل پاداش‌های توالی مربوط به توالی‌های مختلف انتقال مسیر، می‌توان یک مسیر بهینه با بیشترین پاداش توالی را استخراج کرد که از آن برای هدایت مؤثرتر فازر به سمت نقطهٔ هدف استفاده می‌شود. برای دستیابی به این هدف، لازم است سه چالش اساسی مورد توجه و حل قرار گیرند.

چالش ۱: چگونه انتقال‌های مسیری را که تاکنون طی نشده‌اند پیش‌بینی کنیم؟
برای تولید مسیر بهینه به‌ سوی نقطهٔ هدف، لازم است تمامی انتقال‌های بالقوهٔ مسیر جمع‌آوری شوند. با این حال، تکنیک‌های موجود تنها قادر به گردآوری اطلاعات مربوط به انتقال‌های مسیر شناخته‌شده هستند و برای انتقال‌های مسیر آینده مناسب نیستند. در فازینگ هدایت‌شدهٔ خاکستری (DGF)، جهش‌های متفاوت منجر به انتقال‌های مسیر متفاوتی می‌شوند. با توجه به محدودیت بودجهٔ زمانی، فازر قادر نیست تمامی جهش‌های ممکن (برای مثال، استفاده از همهٔ جهش‌گرها بر روی تمام بایت‌های بذر) را بر روی بذرها امتحان کند. افزون بر این، انتخاب تصادفی جهش‌گرها و بایت‌ها برای جهش می‌تواند منجر به انتخاب جهش‌گرهای ناکارآمد و نادیده گرفتن بایت‌های کلیدی شود. بنابراین، لازم است انتقال‌های مسیر بالقوه و پاداش‌های متناظر با آن‌ها که ناشی از جهش‌هایی هستند که تاکنون اعمال نشده‌اند، پیش‌بینی شوند.

چالش ۲: چگونه مسیر بهینه را در میان تعداد زیادی از انتقال‌های مسیر تعیین کنیم؟
در مدل انتقال مسیر، پاداش توالی بالاتر نشان‌دهندهٔ احتمال بیشتر رسیدن به نقطهٔ هدف از طریق آن توالی انتقال مسیر است. مسیر بهینه را می‌توان به‌صورت یک توالی انتقال مسیر با بیشترین پاداش توالی نمایش داد. با این حال، ترکیب انتقال‌های مسیر تاریخی و انتقال‌های مسیر پیش‌بینی‌شده، تعداد بسیار زیادی از توالی‌های انتقال مسیر با پاداش‌های توالی متفاوت ایجاد می‌کند. ازاین‌رو، لازم است پاداش توالی تمامی توالی‌های انتقال مسیر به‌صورت کارآمد ارزیابی شود و یک سیاست مناسب طراحی گردد تا جهش‌ها را به‌گونه‌ای هدایت کند که مسیر بهینه محقق شود.

چالش ۳: چگونه با بهینه‌سازی راهبردهای فازینگ، توالی‌های انتقال مسیر بهینه را اجرا کنیم؟
از آن‌جا که DGF همچنان از راهبردهای جهش تصادفی استفاده می‌کند، مسیرهایی که توسط فازر پوشش داده می‌شوند تصادفی بوده و به‌ طور پیوسته تغییر می‌کنند. با این حال، بر اساس مدل انتقال مسیر، برای هدایت مؤثر فازر به‌سوی نقطهٔ هدف از طریق توالی انتقال مسیر بهینه، لازم است گام‌های کلیدی فازینگ به‌صورت جامع بهینه‌سازی شوند؛ از جمله انتخاب بذر، تخصیص انرژی، زمان‌بندی جهش‌گرها، چرخه‌های تکرار در مرحلهٔ havoc [83]، و انتخاب محل جهش. بنابراین، باید بتوان تمامی گام‌های بحرانی فازینگ را به‌طور هم‌زمان بهینه کرد تا توالی‌های انتقال مسیر بهینه به‌صورت کارآمد اجرا شوند.

برای مقابله با این چالش‌ها، ما DeepGo را به‌عنوان یک فازر خاکستری هدایت‌ شدهٔ پیش‌بینانه پیشنهاد می‌کنیم. بر پایهٔ مدل انتقال مسیر، در DGF مسیر پوشش‌ داده‌ شده توسط یک بذر، جهش اعمال‌ شده بر بذر، انتقال مسیر، و تغییرات مقدار بذر ناشی از انتقال مسیر را در قالب یک چهارتایی (path, action, next path, reward) استخراج می‌کنیم (رجوع شود به بخش 3).

برای چالش ۱، از شبکه‌های عصبی عمیق (DNNs) برای ساخت یک محیط ترکیبی مجازی (Virtual Ensemble Environment – VEE) استفاده می‌کنیم. با داشتن یک مسیر و یک عمل (Action)، VEE که به‌ خوبی آموزش دیده است می‌تواند انتقال‌های مسیر بالقوه و پاداش‌های متناظر با آن‌ها را پیش‌بینی کند. با افزایش تدریجی اطلاعات مربوط به انتقال‌های مسیر که به VEE ارائه می‌شود، این محیط می‌تواند به‌ تدریج مدل انتقال مسیر را تقلید کرده و انتقال‌های مسیری را که در اثر جهش‌های تاکنون اجرا نشده ایجاد می‌شوند، پیش‌بینی کند؛ امری که به‌طور چشمگیری کارایی DGF را افزایش می‌دهد.

برای چالش ۲، ما یک مدل یادگیری تقویتی برای فازینگ (Reinforcement Learning for Fuzzing – RLF) به‌منظور تعیین مسیر بهینه ارائه می‌دهیم. برای اعطای قابلیت پیش‌نگری به RLF، از یک راهبرد k-مرحله‌ای پیش‌روی شاخه (k-step branch rollout) استفاده می‌کنیم تا به‌طور پیوسته انتقال‌های مسیر پیش‌بینی‌شده را از VEE دریافت کنیم. با ترکیب انتقال‌های مسیر تاریخی و پیش‌بینی‌شده، مدل RLF آموزش داده می‌شود تا پاداش‌های توالی مورد انتظارِ توالی‌های انتقال مسیر ناشی از جهش‌های مختلف را ارزیابی کرده و بیشترین پاداش توالی را تعیین کند. افزون بر این، این مدل قادر است یک سیاست بهینه برای مسیر مطلوب بیاموزد تا راهبرد جهش در فرایند فازینگ را هدایت کند.

برای چالش ۳، به‌منظور اجرای مسیر بهینه، راهبردهای فازینگ را بر اساس مفهوم گروه عمل (Action Group) بهینه می‌کنیم. در گروه عمل، پنج گام حیاتی شامل انتخاب بذر، تخصیص انرژی، انتخاب تعداد چرخه‌های تکرار در مرحلهٔ havoc [83]، زمان‌بندی جهش‌گرها، و انتخاب محل جهش به‌صورت جامع در نظر گرفته می‌شوند. تحت سیاست جهشی که توسط مدل RLF تولید می‌شود، از الگوریتم بهینه‌سازی ازدحام ذرات چند عنصری (Multi-elements Particle Swarm Optimization – MPSO) برای بهینه‌سازی هم‌زمان این مؤلفه‌ها استفاده می‌کنیم تا جهش‌های مطلوب محقق شده، توالی‌های انتقال مسیر تولید گردند، و در نهایت از طریق مسیر بهینه به نقطهٔ هدف دست یابیم.

در مجموع، مهم‌ترین دستاوردهای این پژوهش به شرح زیر است:

مدل انتقال مسیر را ارائه می‌کنیم که در آن، DGF به‌عنوان فرایند رسیدن به نقطهٔ هدف از طریق توالی‌های مشخصی از انتقال مسیر مدل‌سازی می‌شود. بر پایهٔ این مدل، از پاداش توالی (Sequence Reward) به‌عنوان معیار برازندگی برای ارزیابی میزان دشواری رسیدن به نقطهٔ هدف از طریق یک توالی از انتقال‌های مسیر استفاده می‌کنیم.
محیط ترکیبی مجازی (VEE) را طراحی می‌کنیم که با بهره‌گیری از شبکه‌های عصبی عمیق (DNNs)، مدل انتقال مسیر را تقلید کرده و بدون اجرای واقعی مسیر، انتقال‌های مسیر بالقوه و پاداش‌های متناظر با آن‌ها را پیش‌بینی می‌کند؛ امری که به‌طور قابل‌توجهی کارایی سیستم را افزایش می‌دهد.
مدل یادگیری تقویتی برای فازینگ (RLF) را پیشنهاد می‌دهیم که قادر است با ترکیب اطلاعات تاریخی و اطلاعات پیش‌بینی‌شده، مسیر بهینه به‌سوی نقطهٔ هدف را تولید کند. با اجتناب از مسیرهای غیرقابل اجرا یا دشوار برای اجرا، مسیر بهینه با بیشترین پاداش توالی می‌تواند فازر را به‌صورت دقیق و کارآمد به نقطهٔ هدف هدایت کند.
راهبرد جهش در فرایند فازینگ را در سطح گروه عمل (Action Group) بهینه‌سازی می‌کنیم که نسبت به بهینه‌سازی تک‌راهبردی کاراتر است. در گروه عمل، پنج گام حیاتی فازینگ را به‌طور هم‌زمان و با استفاده از الگوریتم بهینه‌سازی ازدحام ذرات چند عنصری (MPSO یا Multi-elements Particle Swarm Optimization) بهینه می‌کنیم.
DeepGo را پیاده‌سازی و ارزیابی می‌کنیم. نتایج ارزیابی نشان می‌دهد که VEE قادر است انتقال‌های مسیر را با دقت بالا پیش‌بینی کند و DeepGo می‌تواند در مقایسه با فازرهای مبنا، سریع‌تر به نقاط هدف دست یابد.
پیاده‌سازی (Artifact) مربوط به DeepGo از طریق وب‌سایت ما در دسترس است: https://gitee.com/paynelin/DeepGo.

2. پیش‌زمینه (BACKGROUND)

2.1 فازینگ جعبه خاکستری هدایت‌شده (Directed Greybox Fuzzing)

مطابق با AFLGo [12]، روش‌های موجود DGF فاصله بین ورودی‌ها و اهداف از پیش تعریف‌شده را بر اساس گراف فراخوانی (Call Graph) و گراف جریان کنترل (Control-Flow Graph) محاسبه می‌کنند و این فاصله را با شاخص‌های دیگر (مانند پیچیدگی قیود شرطی) ترکیب می‌نمایند تا یک معیار برازندگی (Fitness Metric) شکل گیرد. سپس، در زمان اجرا، تکنیک‌های فازینگ خاکستری هدایت‌شده با توجه به این معیار برازندگی، زمان‌بندی‌های توان (Power Schedules) متفاوتی طراحی می‌کنند تا انرژی بیشتری به بذرهای ترجیح‌داده‌شده اختصاص یابد. در این رویکرد، مسئلهٔ قابلیت دسترسی به‌صورت یک مسئلهٔ بهینه‌سازی مدل‌سازی می‌شود که هدف آن کمینه‌سازی فاصله میان ورودی‌های تولیدشده و نقاط هدف است.

2.2 شبکه‌های عصبی عمیق (Deep Neural Networks):

در سال‌های اخیر، شبکه‌های عصبی عمیق (DNNs) توانایی خود را در تقریب توابع غیرخطی و غیرمحدب (non-linear and non-convex functions) پیچیده و نیز تقلید رفتار محیط در مسائل تشخیص الگو نشان داده‌اند [50]، [72]. DNNها در برخی از پژوهش‌های فازینگ، از جمله NEUZZ [69]، MTFuzz [68] و FUZZGUARD [93]، برای شبیه‌سازی رفتار شاخه‌بندی برنامه مورد استفاده قرار گرفته‌اند. به‌طور خلاصه، این پژوهش‌ها ورودی‌های جهش‌یافته‌ای را که در طول فرایند فازینگ تولید می‌شوند به‌عنوان ورودی DNNها جمع‌آوری کرده و شاخه‌های پوشش‌داده‌شدهٔ برنامه را به‌عنوان برچسب ثبت می‌کنند تا شبکه‌های عصبی آموزش داده شوند. بدین ترتیب، DNNها قادر خواهند بود رفتار شاخه‌بندی برنامه را شبیه‌سازی کرده و به بهینه‌سازی فرایند فازینگ کمک کنند. نتایج ارزیابی این مطالعات نشان می‌دهد که DNNها ابزار مناسبی برای شبیه‌سازی محیط فازینگ هستند.

2.3 یادگیری تقویتی (Reinforcement Learning)

یادگیری تقویتی (RL) [29]، [53]، [65] به‌طور گسترده برای حل مسائل تصمیم‌گیری دنباله‌ای (Sequential Decision Problems)، مانند فرایند مارکوف، مورد استفاده قرار می‌گیرد. در مدل RL، عامل‌ها (Agents) به‌ صورت پیوسته با انجام عمل‌ها با محیط تعامل می‌کنند و بازخوردی در قالب پاداش (Reward) دریافت می‌نمایند. بر اساس این بازخورد که به‌صورت یک چهارتایی (state, action, next state, reward) از محیط دریافت می‌شود، مدل RL راهبرد انتخاب عمل‌ها (یعنی سیاست در RL) را به‌گونه‌ای بهینه می‌کند که بیشترین پاداش ممکن حاصل شود.

با پیروی از AFLGo، می‌توان DGF را به‌عنوان یک فرایند مارکوف مدل‌سازی کرد و از مدل یادگیری تقویتی برای بهینه‌سازی راهبردهای فازینگ، از جمله انتخاب عملگرهای جهش و بایت‌های جهش، بهره گرفت.

2.4 بهینه‌سازی سیاست مبتنی بر مدل (Model-Based Policy Optimization – MBPO) [32]

MBPO یک روش یادگیری تقویتی مبتنی بر مدل است که از دو ماژول اصلی تشکیل می‌شود: یک محیط مجازی و یک شبکهٔ یادگیری تقویتی. در گام نخست، MBPO با استفاده از شبکه‌های عصبی عمیق (DNNs) یک محیط مجازی ایجاد می‌کند تا جایگزین محیط واقعی شود. در گام دوم، MBPO به عامل اجازه می‌دهد با این محیط مجازی تعامل داشته باشد و تعداد زیادی انتقال مسیر به‌دست آورد. سپس، MBPO با تکیه بر این انتقال‌های مسیر، شبکهٔ یادگیری تقویتی را به‌صورت پیوسته آموزش می‌دهد و سیاستی را می‌آموزد که پاداش عامل را بیشینه می‌کند.

در این مقاله، از برخی مفاهیم و روش‌های MBPO، از جمله راهبرد k-مرحله‌ای پیش‌روی شاخه (k-step branch rollout)، برای ترکیب شبکه‌های عصبی عمیق و یادگیری تقویتی استفاده می‌کنیم.

2.5 بهینه‌سازی ازدحام ذرات (Particle Swarm Optimization – PSO)

الگوریتم PSO [34] یک تکنیک محاسبات تکاملی است که از مطالعهٔ رفتار گروهی پرندگان هنگام جستجوی غذا الهام گرفته شده است. این الگوریتم برای افزایش کارایی فازینگ در CGF نیز به‌کار رفته است؛ برای مثال، MOPT [48] از الگوریتم PSO برای بهینه‌سازی احتمال انتخاب عملگرهای جهش بر اساس اطلاعات تاریخی فازینگ استفاده می‌کند.

ایدهٔ اصلی PSO یافتن راه‌حل بهینه از طریق همکاری و به‌اشتراک‌گذاری اطلاعات بین اعضای جمعیت است. الگوریتم PSO از ذرات بدون جرم برای شبیه‌سازی پرندگان در یک گروه استفاده می‌کند، و هر ذره دو ویژگی اصلی دارد: سرعت (Velocity) و مکان (Position). سرعت نشان‌دهندهٔ میزان حرکت و مکان نشان‌دهندهٔ جهت حرکت ذره است. هر ذره به‌صورت مستقل در فضای جستجو به دنبال راه‌حل بهینه می‌گردد و آن را به‌عنوان بهترین مقدار محلی (Local Best) ثبت می‌کند. سپس بهترین مقادیر محلی بین تمامی ذرات جمعیت به اشتراک گذاشته می‌شود تا بهترین مقدار کلی (Global Best) به‌ عنوان راه‌حل بهینه تعیین گردد. تمامی ذرات موجود در جمعیت بر اساس مقدار بهترین محلی و بهترین مقدار کلی به‌اشتراک گذاشته‌شده، سرعت و مکان خود را تنظیم می‌کنند.

3. مدل انتقال مسیر (PATH TRANSITION MODEL)

در این مقاله، ما مدل انتقال مسیر را پیشنهاد می‌کنیم که در آن، DGF به‌ عنوان فرایندی برای رسیدن به نقطهٔ هدف از طریق توالی‌های مشخصی از انتقال مسیر مدل‌سازی می‌شود. بذرهای جدیدی که از طریق جهش تولید می‌شوند، موجب انتقال مسیر می‌گردند و ما از پاداش‌ها (Rewards) برای ارزیابی تأثیر فوری این انتقال‌های مسیر بر فازر استفاده می‌کنیم. توالی انتقال مسیری که دارای بیشترین پاداش توالی (Sequence Reward) باشد، مسیر بهینه به نقطهٔ هدف را تعیین می‌کند.

در این بخش، عناصر کلیدی موجود در DGF را به مدل انتقال مسیر نگاشت می‌کنیم و اثربخشی انتقال‌های مسیر و اقدامات (Actions) را کمّی‌سازی می‌نماییم.

3.1 عناصر مدل انتقال مسیر (Elements in Path Transition Model):

مسیر (Path). هر مسیر متناظر با یک بذر در صف بذرهای فازر است. ما از trace_bits در AFL [12] برای ثبت شاخه‌های پوشش‌داده‌شده و تعداد برخوردهای هر شاخه در مسیر استفاده می‌کنیم و مسیرهای مختلف را متمایز می‌نماییم.
اقدام (Action). اقدام یک فازر به معنای جهش یک بذر در مکان مشخصی است. تمرکز ما بر محل جهش (بایت‌ها) است و نه جهش‌گر مورد استفاده. فازر با انجام یک سری اقدامات، به‌صورت تدریجی به نقطهٔ هدف نزدیک می‌شود.
انتقال مسیر (Path Transition). جهش روی بذر موجب انتقال مسیر می‌شود اگر مسیر اجرای ورودی جدید با مسیر بذر متفاوت باشد. اگر مسیر ورودی جدید با مسیر بذر یکسان باشد، جهش یک انتقال مسیر خودی (Self-Path-Transition) ایجاد می‌کند.
پاداش (Reward). پاداش یک انتقال مسیر نشان‌دهندهٔ تغییر در ارزش بذر است که ناشی از آن انتقال مسیر می‌باشد.
سیاست (Policy). سیاست، راهبرد انتخاب عمل‌ها توسط فازر در هر مسیر است و به‌صورت یک فهرست از احتمال‌ها متناظر با هر عمل نمایش داده می‌شود. تحت این سیاست، فازر عمل‌ها را با احتمال‌های متفاوت انتخاب می‌کند.

ما از شکل ۱ برای نمایش مدل انتقال مسیر استفاده می‌کنیم. شکل ۱ درخت اجرای یک برنامه نمونه را نشان می‌دهد که در آن، گره‌ها نمایانگر بلاک‌های پایه (Basic Blocks) و یال‌ها نمایانگر انتقال بین بلاک‌های پایه هستند. مسیر اجرای path1 که با رنگ سبز مشخص شده، توسط بذر s1 پوشش داده می‌شود؛ مسیر path2 با رنگ آبی توسط بذر s2 پوشش داده شده و مسیر path3 با رنگ زرد توسط بذر s3 پوشش داده می‌شود. گره‌ای که با رنگ نارنجی مشخص شده، بلاک پایه هدف (Target Basic Block) است و مسیر path3 مسیر بهینه‌ای است که می‌تواند به نقطهٔ هدف برسد.

در طول فرایند فازینگ، ابتدا فازر با اقدام به جهش بذر s1، بذر جدید s2 را تولید می‌کند و مسیر path1 به path2 منتقل می‌شود. سپس فازر با اقدام به جهش بذر s2، مسیر path2 را به path3 منتقل می‌کند و به نقطهٔ هدف دست می‌یابد. از طریق این دو انتقال مسیر، فازر مسیر بهینه path3 را تولید می‌کند که توسط یک توالی انتقال مسیر (Path Transition Sequence) شامل انتقال مسیر ۱ و انتقال مسیر ۲ نمایش داده شده و به نقطهٔ هدف منتهی می‌شود.

3.2 کمّی‌سازی انتقال‌های مسیر و اقدامات (Quantifying Path Transitions and Actions):

فازر با انجام اقدامات مختلف برای جهش بذرها، باعث ایجاد انتقال‌های مسیر متفاوت می‌شود. ما از پاداش‌ها (Rewards) برای کمّی‌سازی اثربخشی انتقال‌های مسیر استفاده می‌کنیم و از پاداش توالی مورد انتظار (Expected Sequence Rewards) برای کمّی‌سازی اثربخشی اقدامات (Actions) بهره می‌بریم.

مقدار بذر (Seed Value). ما از مقدار بذر برای ارزیابی مسیرهای مختلف استفاده می‌کنیم تا میزان سهم آن‌ها در رسیدن فازر به نقطهٔ هدف مشخص شود. مقدار بذر بر اساس چهار ویژگی بذر متناظر با مسیر محاسبه می‌شود:

فاصله بذر تا هدف (Seed Distance to the Target)
دشواری برآورده کردن معکوس شاخه (Difficulty of Satisfying Branch Inversion)
سرعت اجرای بذر (Execution Speed)
آیا بذر «ترجیح داده شده» است یا خیر (Favored Seed)

در DGF، فاصله کوتاه‌تر بذر نشان می‌دهد که فازر می‌تواند با برآورده کردن تعداد کمتری از قیود مسیر، به نقطهٔ هدف برسد و دشواری کمتر نشان‌دهندهٔ آسان‌تر بودن برآورده کردن قیود مسیر منتهی به نقطهٔ هدف است. علاوه بر این، در طول اجرای بذر، فازر ممکن است در حلقه‌ها (مثلاً while و for) گرفتار شود که این امر سرعت اجرا را کاهش داده و کمکی به رسیدن به نقطهٔ هدف نمی‌کند. بنابراین، برای افزایش کارایی فازینگ، بذرهایی که سرعت اجرای بالاتری دارند ترجیح داده می‌شوند.

همچنین، بذرهایی که به‌عنوان «ترجیح داده شده» (Favored) علامت‌گذاری شده‌اند، ترجیح داده می‌شوند زیرا این بذرها می‌توانند تمام شاخه‌های کاوش‌ شده را پوشش دهند. با فازینگ بذرهای ترجیح داده شده، می‌توان معکوس شاخه (Branch Inversion) را روی همهٔ شاخه‌های کاوش‌شده انجام داد تا شاخه‌های جدید منتهی به نقطهٔ هدف پوشش داده شوند.

مطابق با روش‌های AFL [39] و AFLGo [12]، عناصر (1)، (3) و (4) می‌توانند با ثبت اطلاعات اجرا در طول فازینگ به‌دست آیند. در اینجا، تمرکز ما بر توضیح مفهوم «دشواری» (Difficulty) و روش محاسبهٔ آن است.

ما از احتمال شاخه (Branch Probability) برای سنجش دشواری برآورده کردن معکوس شاخه (Branch Inversion) استفاده می‌کنیم، که بر پایهٔ آمار برخوردهای شاخه (Branch Hits) محاسبه می‌شود. ابتدا، اطلاعات مربوط به شاخه‌های هم‌سطح (Sibling Branches) هر شاخه را طی تحلیل ایستا (Static Analysis) به‌دست می‌آوریم. اگر شاخه‌های هم‌سطح شاخه‌های پوشش داده‌شده هنوز پوشش داده نشده باشند (یعنی شاخه‌های کاوش‌ نشده)، برآورده کردن معکوس شاخه برای پوشش این شاخه‌های کاوش‌نشده، فازر را قادر می‌سازد تا از مسیرهای پوشش داده‌شده به مسیرهای جدید منتقل شود.

سپس، تعداد برخوردهای شاخه را می‌شماریم تا احتمال شاخه (Branch Probability) شاخهٔ کاوش‌ نشده را محاسبه کنیم. اگر فازر به‌طور مداوم با ورودی‌های جهش‌یافته به شاخه‌های پوشش داده‌شده برخورد کند اما نتواند به شاخه‌های کاوش‌نشده برسد، این امر نشان‌دهندهٔ مشکل فازر در برآورده کردن معکوس شاخه است.

در نهایت، دشواری برآورده کردن معکوس شاخه را از طریق احتمال شاخه کمّی می‌کنیم:

که در آن، ubr شاخه‌ای کاوش‌ نشده را نشان می‌دهد. برای یافتن شاخه‌های کاوش‌نشده، بررسی می‌کنیم که آیا شاخه‌های هم‌سطح شاخه‌های پوشش داده‌شده پوشش داده شده‌اند یا خیر. ϕ(cond) مجموعهٔ تمامی شاخه‌ها تحت همان شرط (Condition) را نشان می‌دهد. hitbr تعداد برخوردهای شاخه‌ای است که در طول فازینگ ثبت شده است. P(ubr) احتمال شاخهٔ شاخه‌های کاوش‌نشده را نشان می‌دهد، که هرگز برابر با صفر نیست، زیرا فرض ما این است که شاخه‌های کاوش‌نشده همواره احتمال پوشش توسط فازینگ را دارند.

به منظور برآورد دشواری برآورده کردن معکوس شاخه، از میانگین حسابی احتمالات شاخهٔ تمام شاخه‌های کاوش‌نشده در مسیر یک بذر استفاده می‌کنیم:

که در آن، s بذر را نشان می‌دهد، EDs دشواری تخمینی (Estimated Difficulty) را نشان می‌دهد و Φ(s) مجموعه‌ای از تمامی شاخه‌های کاوش‌نشده در مسیر بذر است. بنابراین، فاصله (Distance)، دشواری (Difficulty)، سرعت اجرا (Execution Speed) و ترجیح داده شدن (Favored) همگی می‌توانند به‌صورت کمّی اندازه‌گیری و محاسبه شوند تا مقدار بذر (Seed Value) تعیین گردد.

ما از روش وزن‌دهی بر پایه آنتروپی (Entropy Weight Method) [42] برای تعیین وزن‌های چهار عامل استفاده می‌کنیم، که بر اساس آنتروپی اطلاعاتی هر عامل محاسبه می‌شود. مقدار کوچک آنتروپی اطلاعاتی، وزن کوچک برای آن عامل ایجاد می‌کند و نشان می‌دهد که تأثیر آن عامل بر ارزیابی کلی مقدار بذر کم است.

که در آن، Vs(pt) مقدار بذر مسیر pt را نشان می‌دهد، و W1, W2, W3, W4 وزن‌هایی هستند که بر اساس روش وزن‌دهی آنتروپی (Entropy Weight Method) محاسبه شده‌اند. ds فاصله بذر، Exs سرعت اجرای بذر و Fvs نشان‌دهندهٔ وضعیت ترجیح داده شدن بذر است که مقدار آن می‌تواند ۰ یا ۱ باشد. روش وزن‌دهی آنتروپی [42] یک روش رایج برای ارزیابی جامع چندعنصری (Multi-Element Comprehensive Evaluation) است. مراحل محاسبهٔ وزن‌های عناصر مختلف به شرح زیر است:

(1) محاسبهٔ آنتروپی هر عنصر (Calculate the Entropy of Each Element):

(2) محاسبهٔ وزن هر عنصر (Calculate the Weight of Each Element):

(3) نرمال‌سازی وزن هر عنصر (Normalize the Weight of Each Element):

که در آن، W′j وزن نرمال‌شدهٔ عنصر jام را نشان می‌دهد. ایدهٔ اصلی روش وزن‌دهی آنتروپی این است که با محاسبهٔ آنتروپی هر عنصر، وزن آن تعیین شود تا بتوان ارزیابی جامع چندعنصری انجام داد. سپس، با استفاده از مقدار بذر (Seed Value)، پاداش (Reward) محاسبه می‌شود تا اثربخشی انتقال مسیر (Effectiveness of the Path Transition) ارزیابی گردد.

که در آن، r(pt, at, pt+1) پاداش را نشان می‌دهد، at عملی است که فازر برای انتقال از مسیر pt به مسیر pt+1 انجام می‌دهد، و Vs(pt+1) و Vs(pt) مقدار بذر مسیرهای pt+1 و pt را نشان می‌دهند. ما از چهارتایی (pt, at, pt+1, rt) برای نمایش یک انتقال مسیر (Path Transition) استفاده می‌کنیم.

پاداش توالی مورد انتظار (Expected Sequence Reward). در مدل انتقال مسیر، انتقال‌های مسیر که ناشی از انتخاب عمل‌ها بر اساس سیاست (Policy) هستند، بر توالی‌های بعدی انتقال مسیر تأثیر می‌گذارند و بنابراین بر رسیدن به نقطهٔ هدف اثر می‌گذارند. برای ارزیابی سهم انتقال‌های مسیر در رسیدن به نقطهٔ هدف، ما پاداش توالی مورد انتظار را به‌عنوان مجموع مورد انتظار پاداش‌های توالی‌های انتقال مسیر که توسط فازر تحت یک سیاست مشخص تولید می‌شوند، تعریف می‌کنیم. این مقدار را می‌توان به‌صورت بازگشتی با استفاده از معادلهٔ بلمن (Bellman Equation) [7] محاسبه کرد:

که در آن، p′ ∼ P نشان‌دهندهٔ احتمال انتقال از مسیر p به مسیر ′p است. γ عامل تنزیل (Discount Factor) را نشان می‌دهد و تأثیر انتقال‌های مسیر بعدی بر پاداش توالی مورد انتظار به‌تدریج کاهش می‌یابد. r(p, a, p′) پاداش انتقال مسیر را نشان می‌دهد و Vtπ(p′) مقدار انتقال مسیر ′p است.

محاسبهٔ مقدار انتقال مسیر ′p به صورت زیر انجام می‌شود:

که در آن، pter مسیر پایانی (Terminal Path) را نشان می‌دهد. مسیری را پایانی در نظر می‌گیریم که تمام اقدامات آن مسیر تنها موجب انتقال مسیر خودی (Self-Path-Transition) شوند. π نشان‌دهندهٔ سیاست (Policy) برای انتخاب اقدامات است (برای مثال، در AFL، فازر از سیاست تصادفی (Random Policy) برای انتخاب اقدامات جهش استفاده می‌کند). π(a|p) احتمال انتخاب عمل a توسط مسیر p تحت سیاست π را نشان می‌دهد.

اگر ′p وضعیت پایانی باشد، مقدار انتقال آن برابر با صفر است. در غیر این صورت، مقدار انتقال آن برابر با میانگین وزنی پاداش‌های توالی مورد انتظار تمام اقدامات است. معادلهٔ بلمن (Bellman Equation) برای به‌روزرسانی بازگشتی مقدار انتقال و پاداش توالی مورد انتظار استفاده می‌شود تا مسیر به مسیر پایانی برسد. با بیشینه کردن پاداش توالی مورد انتظار (Expected Sequence Reward)، فازر می‌تواند سیاستی بیاموزد که پاداش تجمعی بلندمدت (Long-Term Cumulative Reward) را به حداکثر برساند.

4. روش (METHOD)

4.1 نمای کلی DeepGo

بر پایهٔ مدل انتقال مسیر، ما یک فازر خاکستری هدایت‌شدهٔ پیش‌بینانه (Predictable Directed Greybox Fuzzer) با نام DeepGo طراحی کرده‌ایم. DeepGo از شبکه‌های عصبی عمیق (DNNs) برای پیش‌بینی انتقال‌های مسیر بالقوه و پاداش‌های متناظر استفاده می‌کند. سپس با بهره‌گیری از یادگیری تقویتی (Reinforcement Learning)، انتقال‌های مسیر تاریخی و پیش‌بینی‌ شده را ترکیب می‌کند تا توالی انتقال مسیر بهینه همراه با سیاست متناظر (Policy) آن به‌دست آید.

در نهایت، بر اساس گروه عمل (Action Group)، راهبردهای فازینگ به‌ صورت جامع بهینه‌سازی می‌شوند تا توالی‌های انتقال مسیر بهینه به‌طور مؤثر اجرا شوند. همان‌طور که در شکل ۲ نشان داده شده است، DeepGo عمدتاً از چهار جزء اصلی تشکیل شده است.

4.1.1 مولفه فازینگ خاکستری هدایت‌ شده (Directed Greybox Fuzzing Component)

مولفه DGF به‌صورت مداوم بذرها را جهش می‌دهد تا ورودی‌هایی برای رسیدن به نقاط هدف تولید کند. این جزء شامل یک تحلیل‌گر ایستا (Static Analyzer) و یک فازر (Fuzzer) است. در زمان کامپایل، تحلیل‌گر ایستا فاصله در سطح بلاک پایه (BB Distance) را محاسبه می‌کند، شاخه‌های هم‌سطح هر شاخه را ثبت می‌کند و برنامهٔ هدف را ابزارسنجی (Instrument) می‌نماید. پس از راه‌اندازی کمپین فازینگ، فازر به‌طور مداوم بذرها را جهش داده و برنامه را تست می‌کند. لازم به ذکر است که مدل انتقال مسیر در جزء DGF ادغام شده است.

4.1.2 محیط ترکیبی مجازی (Virtual Ensemble Environment – VEE)

VEE برای پیش‌بینی انتقال‌های مسیر بالقوه و پاداش‌های متناظر استفاده می‌شود. VEE شامل شبکه‌های عصبی عمیق (DNNs) است و با جزء یادگیری تقویتی برای فازینگ (Reinforcement Learning for Fuzzing)، بافر بازپخش تاریخی (Historical Replay Buffer) و بافر بازپخش پیش‌بینی‌شده (Predicted Replay Buffer) را به اشتراک می‌گذارد. این دو بافر داده‌ای، شامل چهارتایی‌ها (Four-Tuples) یعنی (Path, Action, Next Path, Reward) هستند. با داشتن یک چهارتایی (Path, Action)، VEE آموزش‌دیده مسیر بعدی و پاداش اقدام را، مطابق با احتمال‌های مختلف انتقال مسیر، پیش‌بینی می‌کند و آن را به‌صورت (Next Path, Reward) نمایش می‌دهد.

4.1.3 مدل یادگیری تقویتی برای فازینگ (Reinforcement Learning for Fuzzing – RLF)

این مدل از یادگیری تقویتی استفاده می‌کند تا انتقال‌های مسیر تاریخی و پیش‌بینی‌شده را ترکیب کرده و سیاستی (Policy) بیاموزد که پاداش‌های توالی (Sequence Rewards) را بیشینه کند. مدل RLF شامل سه شبکه اصلی است:

شبکه Actor
شبکه Q-Critic
شبکه V-Critic

پس از آموزش:

شبکه Q-Critic می‌تواند پاداش توالی مورد انتظار Qπ(p, a) ناشی از هر عمل را ارزیابی کند.
شبکه V-Critic می‌تواند مقدار انتقال مسیر Vtπ(p) هر مسیر را ارزیابی نماید.
شبکه Actor می‌تواند سیاست π را بیاموزد تا پاداش‌های توالی را به حداکثر برساند.

4.1.4 مولفه بهینه‌سازی فازینگ (Fuzzing Optimization Component)

این مولفه توالی‌های انتقال مسیر بهینه را با بهینه‌سازی راهبردهای فازینگ اجرا می‌کند. بر اساس گروه عمل (Action Group)، می‌توان گام‌های حیاتی فازینگ را به‌صورت جامع بهینه کرد و برای این منظور از الگوریتم بهینه‌سازی ازدحام ذرات چندعنصری (Multi-elements Particle Swarm Optimization – MPSO) استفاده می‌شود تا عناصر یک گروه عمل به‌طور هم‌زمان بهینه شوند.

ما فرایند فازینگ DeepGo را به چرخه‌های فازینگ (Fuzzing Cycles) تقسیم می‌کنیم که هر چرخه تقریباً ۲۰ دقیقه طول می‌کشد. در هر چرخهٔ فازینگ، DeepGo باید چهار کار زیر را انجام دهد:

استفاده از فازر برای تست برنامه‌ها و ارائه انتقال‌های مسیر تاریخی به منظور آموزش VEE و مدل
VEE ارائهٔ انتقال‌های مسیر پیش‌بینی‌شده به منظور آموزش مدل
RLF ارائهٔ مقدار انتقال‌ها، پاداش‌های توالی مورد انتظار، و سیاست (Policy) به جزء
جزء FO با استفاده از الگوریتم MPSO، گروه عمل را بهینه کرده و راهبردهای بهینه فازینگ را به DGF ارائه می‌دهد.

پس از انجام این چهار کار، DeepGo وارد چرخهٔ بعدی فازینگ می‌شود و این چهار کار را تکرار می‌کند.

4.2 محیط ترکیبی مجازی (Virtual Ensemble Environment)

برای طراحی سیاستی (Policy) که بتواند فازر را به مسیرهای بهینه هدایت کند، فازر باید پاداش تمام انتقال‌های مسیر ناشی از اقدامات انجام‌شده در مسیرها را به‌دست آورد. با این حال، فازر نمی‌تواند تمام اقدامات را در همه مسیرها در بودجهٔ زمانی محدود (مثلاً ۲۴ ساعت) انجام دهد.

برای پیش‌بینی انتقال‌های مسیر بالقوه و پاداش‌های متناظر ناشی از اقداماتی که هنوز انجام نشده‌اند، ما VEE را طراحی کرده‌ایم تا مدل انتقال مسیر را تقلید کند و انتقال‌های مسیر بالقوه و پاداش‌های متناظر آن‌ها را پیش‌بینی نماید.

4.2.1 رمزگذاری ورودی و خروجی (Input and Output Encoding):

قبل از آموزش VEE، باید مسیر (Path)، عمل (Action) و پاداش (Reward) را رمزگذاری کنیم. ما روش رمزگذاری VEE را با دو هدف طراحی کرده‌ایم. نخست آن که VEE بتواند انتقال‌های مسیر بالقوه برای مسیرهای جدید را بر اساس انتقال‌های مسیر ثبت‌شده در مسیرهای کاوش‌شده پیش‌بینی کند و دلیل دوم، برای بهبود کارایی آموزش VEE، لازم است از بردارهای با بعد پایین (Low-Dimensional Vectors) برای نمایش مسیرها و اقدامات استفاده کنیم. برای مثال، نگاشت trace_bits به یک بردار ۶۵۵۳۶ بعدی برای نمایش مسیر، به‌طور قابل توجهی سرعت آموزش شبکه‌های عصبی عمیق (DNNs) را کاهش می‌دهد. بنابراین، در حالی که اطمینان حاصل می‌کنیم که مسیرها و اقدامات مختلف به‌وضوح قابل تمایز باشند، سعی می‌کنیم از بردارهای با بعد پایین برای نمایش مسیرها، اقدامات و پاداش‌ها استفاده کنیم.

مسیر (Path). ما از الگوریتم Coupled Data Embedding (CDE) [33]برای رمزگذاری مسیرها (نمایش داده‌شده توسط trace_bits در AFL) به بردارهای پیوسته ۲۰ بعدی (20-Dimensional Continuous Vectors) استفاده می‌کنیم و مقادیر هر بعد را نرمال‌سازی می‌کنیم. CDE برای نمایش بردارهای گسسته به صورت بردارهای پیوسته به‌کار می‌رود و در عین حال ویژگی‌های اصلی که مسیرها را متمایز می‌کنند حفظ می‌شوند. بر اساس روش CDE، یک بردار ۲۰ بعدی می‌تواند ویژگی‌های اصلی مسیرهای مختلف را متمایز کند و همزمان بعد مسیرها را کاهش دهد تا کارایی آموزش شبکه‌های عصبی عمیق (DNNs) افزایش یابد. اگر دو مسیر نمایش داده‌شده با trace_bits به یکدیگر شباهت بیشتری داشته باشند، فاصله اقلیدسی (Euclidean Distance) بین بردارهای ۲۰ بعدی متناظر آن‌ها کمتر خواهد بود.

عمل (Action). ما عمل را بر اساس مکان جهش (Mutation Location) رمزگذاری می‌کنیم. به مثال شکل ۱ توجه کنید: بذر s1 شامل ۱۰۰ بایت است. اگر فازر بایت چهارم از s1 را به‌عنوان مکان جهش انتخاب کند، صرف‌نظر از اینکه کدام جهش‌گر (Mutator) انتخاب شود، فازر از بایت چهارم s1 را جهش می‌دهد. رمزگذاری این عمل برابر است با: 4/100=0.04. مقادیر تمام اعمال (Actions) نیز نرمال‌سازی می‌شوند.

پاداش (Reward). پاداش یک مقدار اسکالر است که مطابق معادلهٔ۷ محاسبه می‌شود. استفاده از این روش رمزگذاری به VEE امکان می‌دهد تا احتمال و پاداش انتقال‌های مسیر بالقوه را بر اساس اطلاعات تاریخی فازینگ پیش‌بینی کند.

VEE با استفاده از چهارتایی‌ها (Four-Tuples) آموزش داده می‌شود (path,action,next path,reward) که در آن، action نشان‌دهندهٔ بایت‌های یک بذر است که جهش می‌توانند در آن‌ها رخ دهند و نه یک جهش مشخص. بنابراین، یک عمل مشابه با جهش‌گرهای مختلف می‌تواند انتقال‌های مسیر متفاوت با احتمال‌های مختلف ایجاد کند.

با تحلیل اطلاعات تاریخی جهش‌ها روی یک بایت، VEE می‌تواند انتقال‌های مسیر ناشی از انجام این عمل را پیش‌بینی کند، یعنی جهش آن بایت با جهش‌گرهای مختلف.

برای بایت‌هایی که قبلاً جهش داده شده‌اند، از VEE برای پیش‌بینی احتمال‌ها و پاداش‌های انتقال مسیرهای مختلف ناشی از جهش آن بایت با جهش‌گرهای مختلف استفاده می‌کنیم.
برای بذرها یا بایت‌هایی که هنوز جهش داده نشده‌اند، از بذرهای با ساختار مشابه یا بایت‌هایی با افست مشابه برای پیش‌بینی احتمال‌ها و پاداش‌های انتقال مسیر ناشی از اقدامات جهش استفاده می‌کنیم.

شباهت بر اساس روش رمزگذاری CDE سنجیده می‌شود. اگر بردارهای ۲۰ بعدی که دو بذر را نمایش می‌دهند، فاصلهٔ اقلیدسی کوتاه‌تری داشته باشند، نشان‌دهندهٔ این است که دو بذر شباهت بیشتری دارند.

علاوه بر این، در داخل یک بذر، مقادیر رمزگذاری‌ شده مشابه دو عمل نشان‌دهندهٔ افست مشابه بایت‌های متناظر است.

4.2.2 آموزش VEE (Training of VEE)

ما از شبکه‌های عصبی عمیق (DNNs) برای ساخت VEE استفاده می‌کنیم تا رفتار انتقال مسیر در مدل انتقال مسیر را شبیه‌سازی کند. به‌طور رسمی، فرض کنید:

f:(path, action) → (next path, reward) نمایانگر شبکه‌های عصبی (DNNs) است که چهارتایی (path, action) را به‌عنوان ورودی دریافت کرده و چهارتایی (next path, reward) را به‌عنوان خروجی تولید می‌کند.

ما از θ برای نمایش پارامترهای قابل آموزش DNN استفاده می‌کنیم و شبکه را با مجموعه‌ای از نمونه‌های آموزشی (X, Y) آموزش می‌دهیم، که در آن X مجموعه ورودی‌ها و Y خروجی‌های متناظر آن‌ها است.

در مدل انتقال مسیر، از آنجا که یک عمل مشابه روی یک مسیر مشابه ممکن است باعث انتقال‌های مسیر متفاوت با احتمال‌های مختلف شود، مدل انتقال مسیر ذاتاً یک مدل احتمالاتی (Probabilistic Model) است. بنابراین، هنگام طراحی DNN به شکل f:(path, action) → (next path, reward) است و تابع خطا (Loss Function)، ما به‌ویژه به نااطمینانی‌های آلیاتوریک (Aleatoric) و اپیستمیک (Epistemic) VEE توجه می‌کنیم تا دقت پیش‌بینی آن بهبود یابد.

نااطمینانی آلیاتوریک (Aleatoric Uncertainty). نااطمینانی آلیاتوریک (به نااطمینانی ناشی از ذاتی فرآیند یا داده‌ها اشاره دارد، یعنی چیزی که به دلیل طبیعت تصادفی سیستم وجود دارد و قابل حذف نیست) ناشی از غیرقابل پیش‌بینی بودن انتقال‌های مسیر در فازینگ است. به عنوان مثال، استفاده از جهش‌گرهای مختلف برای یک مکان جهش مشابه می‌تواند منجر به انتقال‌های مسیر متفاوت شود.

برای مدل‌سازی نااطمینانی آلیاتوریک، ما از توزیع احتمال گاوسی (Gaussian Probability Distribution) برای مسیرهای بعدی و پاداش‌ها استفاده می‌کنیم تا احتمال‌های انتقال مسیرهای مختلف و پاداش‌های متناظر که ممکن است توسط عمل at در مسیر pt ایجاد شوند، پیش‌بینی شود.

ما از پارامترهای قابل آموزش (Trainable Weight Parameters) برای نمایش توزیع گاوسی مسیر بعدی pt+1 و پاداش rt استفاده می‌کنیم که می‌تواند براساس چهارتایی ورودی (pt, at) نمایش داده شود:

که در آن، N نمایانگر توزیع گاوسی (Gaussian Distribution) است و μθ میانگین توزیع گاوسی را نشان می‌دهد. ما از Σθ برای نمایش واریانس استفاده می‌کنیم که نشان‌دهندهٔ نااطمینانی نسبت به میانگین است. تابع خطا (Loss Function) بین خروجی شبکه عصبی عمیق (DNN) و برچسب واقعی y ∈ Y در مجموعه آموزش به صورت زیر تعریف می‌شود:

وظیفهٔ آموزش (Training Task) این است که پارامترهای وزنی θˆ شبکه عصبی f را پیدا کنیم تا تابع خطا (Loss) به حداقل برسد.

نااطمینانی اپیستمیک (Epistemic Uncertainty). نااطمینانی اپیستمیک ناشی از روش نمونه‌گیری تصادفی است که در اکثر شبکه‌های عصبی عمیق (DNNs) به‌کار می‌رود. از آنجا که یک DNN واحد نمی‌تواند تمام داده‌های آموزشی را نمونه‌برداری کند، ممکن است ناحیه‌هایی وجود داشته باشند که DNN در آن‌ها نقص شناختی (Epistemic Defect) دارد و قادر به پیش‌بینی دقیق خروجی‌ها نیست.

برای مدل‌سازی نااطمینانی اپیستمیک، ما از الگوریتم Probabilistic Ensembles with Trajectory Sampling (PETS) [21] استفاده کردیم تا تمام DNNها را در یک محیط ترکیبی مجازی (Virtual Ensemble Environment) جمع‌آوری کنیم.

ما از همان روش نمونه‌گیری تصادفی برای آموزش DNNها استفاده می‌کنیم، به طوری که چهارتایی‌ها (Four-Tuples) از بافر بازپخش تاریخی (Historical Replay Buffer) نمونه‌برداری شوند.

تمام DNNها خروجی‌های پیش‌بینی‌ شده را به صورت توزیع‌های احتمال گاوسی (Gaussian Probability Distributions) تولید می‌کنند و نتایج آن‌ها با وزن‌دهی ترکیب شده تا یک پیش‌بینی نهایی حاصل شود. این پیش‌بینی را می‌توان به صورت زیر توصیف کرد:

که در آن، n تعداد DNNها در VEE را نشان می‌دهد. با در نظر گرفتن سرعت آموزش، محدودیت حافظه GPU و دقت پیش‌بینی VEE، ما از شش شبکه عصبی یکسان برای ساخت VEE استفاده می‌کنیم و میانگین احتمالات تولیدشده توسط این شش DNN را به‌ عنوان پیش‌بینی مدل در نظر می‌گیریم.

با گرفتن میانگین وزنی تمام DNNها، می‌توانیم نقص شناختی (Cognitive Defects) یک DNN منفرد ناشی از تصادفی بودن نمونه‌گیری در نواحی خاص را کاهش دهیم.

4.2.3 تعیین انتقال مسیر از توزیع پیش‌بینی‌ شده (Determine the Path Transition from the Predicted Distribution)

با داشتن ورودی (pt, at)، DNNها انتقال‌های مسیر بالقوه و پاداش‌های متناظر را به صورت (pt+1, rt) و با توزیع احتمال گاوسی خروجی می‌دهند.

با این حال، در DGF، جهش یک بذر تنها موجب یک انتقال مسیر مشخص می‌شود. بنابراین، ما از روش نمونه‌گیری تصادفی (Random Sampling) برای تعیین مسیر بعدی pt+1 استفاده می‌کنیم، که بر اساس احتمال‌های پیش‌بینی‌شده انتقال‌های مسیر مختلف انجام می‌شود.

4.3 مدل یادگیری تقویتی برای فازینگ (Reinforcement Learning for Fuzzing – RLF)

برای هدایت مؤثرتر فازر به سمت نقطه هدف، یعنی از طریق توالی‌های انتقال مسیر با پاداش بالا (High-Reward Path Transition Sequences)، لازم است یک سیاست (Policy) بیاموزیم که اقدامات را برای بیشینه کردن پاداش توالی (Sequence Rewards) انتخاب کند.

با توجه به تعداد بسیار زیاد مسیرها، اقدامات و انتقال‌های مسیر در مدل انتقال مسیر، استفاده از روش‌های ریاضی سنتی مانند برنامه‌ریزی پویا (Dynamic Programming – DP) [6] برای یادگیری سیاست و محاسبه پاداش‌های توالی مورد انتظار دشوار است.

بنابراین، ما مدل Reinforcement Learning for Fuzzing (RLF) را توسعه دادیم که مبتنی بر الگوریتم یادگیری تقویتی Soft Actor-Critic (SAC) [28] است.

4.3.1 طراحی مدل RLF

همان‌طور که در شکل ۲ نشان داده شده است، بر اساس ساختار SAC، مدل RLF شامل سه شبکه اصلی است:

شبکه Actor
شبکه Q-Critic
شبکه V-Critic

در طول فرایند آموزش:

شبکه Q-Critic برای ارزیابی پاداش توالی مورد انتظار (Expected Sequence Reward) آموزش داده می‌شود.
شبکه V-Critic برای ارزیابی مقدار انتقال (Transition Value) هر مسیر آموزش داده می‌شود.

با استفاده از پاداش‌های توالی مورد انتظار و مقادیر انتقال، شبکه Actor آموزش می‌بیند تا سیاست (Policy) را بهینه کند و احتمال انتخاب اقداماتی با پاداش توالی مورد انتظار بالا را افزایش دهد.

4.3.2 پردازش و جمع‌آوری داده‌های آموزشی

ما مدل انتقال مسیر را به‌عنوان محیط در یادگیری تقویتی در نظر می‌گیریم و فازر، مسیر، عمل، انتقال مسیر و پاداش در مدل انتقال مسیر را به ترتیب به عامل، حالت، عمل، انتقال حالت و پاداش در یادگیری تقویتی نگاشت می‌کنیم. علاوه بر این، RLF روش رمزگذاری مسیر، عمل و پاداش را از VEE مجدداً استفاده می‌کند. از آنجا که ما انتقال‌های مسیر تاریخی و انتقال‌های مسیر پیش‌بینی‌شده را برای آموزش RLF ترکیب می‌کنیم تا مدل RLF بتواند آینده‌نگری (foresight) داشته باشد، بنابراین انتقال‌های مسیر تاریخی و پیش‌بینی‌شده را به روش‌های متفاوت جمع‌آوری می‌کنیم.

جمع‌آوری انتقال‌های مسیر تاریخی (Collecting historical path transitions). از آنجا که محیط DGF با محیط فرایند یادگیری تقویتی سنتی که در آن انتقال‌های حالت به‌صورت سریالی تولید و به شکل (s0, a0, s1, a1, …, an−1, sn)، نمایش داده می‌شوند متفاوت است، پردازش داده‌های آموزشی RLF با یادگیری تقویتی سنتی (مثلاً SAC) متفاوت است. در DGF، فازر ممکن است یک بذر را چندین بار جهش دهد که منجر به انتقال‌های مسیر متفاوت از همان مسیر می‌شود. این به آن معناست که فازر می‌تواند روی یک مسیر مشخص باقی بماند و اقدامات مختلفی انجام دهد تا انتقال‌های مسیر متفاوتی ایجاد کند. بنابراین، برای مدل RLF، دستیابی به یک توالی کامل از انتقال‌های مسیر و ارزیابی کارایی سیاست جاری با محاسبه پاداش توالی در یک بازه کوتاه (مثلاً چند ثانیه) عملی نیست.

بر اساس این ملاحظات، در هر چرخه فازینگ (Fuzzing Cycle)، فازر اقدامات را مطابق با سیاست انتخاب می‌کند تا انتقال‌های مسیر ایجاد شود. انتقال‌های مسیر تاریخی در بافر بازپخش تاریخی (Historical Replay Buffer) ذخیره می‌شوند و توسط مدل RLF در پایان چرخه فازینگ بارگذاری می‌شوند تا RLF در چرخه فازینگ بعدی آموزش داده شود.

جمع‌آوری انتقال‌های مسیر پیش‌بینی‌ شده (Collecting predicted path transitions): ما از VEE برای شبیه‌سازی مدل انتقال مسیر استفاده می‌کنیم و از استراتژی k-step branch rollout برای به‌دست آوردن انتقال‌های مسیر پیش‌بینی‌شده که هنوز در مدل انتقال مسیر رخ نداده‌اند بهره می‌بریم. در استراتژی k-step branch rollout، مدل RLF به‌عنوان عامل در نظر گرفته می‌شود و در هر مسیر، مطابق با سیاست اولیه، یک توالی از اقدامات را انتخاب می‌کند تا k انتقال مسیر ایجاد شود و یک توالی انتقال مسیر جدید با طول k تولید گردد.

ما از شکل 3 برای نشان دادن فرآیند استراتژی گسترش شاخه k مرحله‌ای استفاده میکنیم. فرض کنید (p0,a0,p1,a1…pi,ai,…an−1,pn) یک دنباله انتقال مسیر تاریخی در مدل انتقال مسیر باشد. ما انتقالها را در نظر میگیریم و یک دنباله انتقال مسیرk مرحله‌ای جدید ایجاد میکنیم که به صورت (pi, a′ i, ri, p′ i+1), (p′ i+1, a′ i+1, r′ i+1, p′ i+2), … , (p′ i+k−1, a′ i+k−1, r′ i+k−1, p′ i+k) نمایش داده میشود. در اینجا، k یک ابرپارامتر (Hyperparameter) است که دقت پیش‌بینی‌های VEE و آینده‌نگری (Foresight) سیاست طراحی‌شده توسط مدل RLF را تحت تأثیر قرار می‌دهد.

پیش بینی‌ها ممکن است نیاز داشته باشند که چندین مورد آزمایشی (Testcase) را در طول فرآیند راه اندازی شاخه k مرحله‌ای پوشش دهند. در بین تست‌کیس‌های مختلف، همان اقدامات تعریف‌شده توسط مکان بایت‌ها ممکن است ناهم‌تراز (Misaligned) باشند، به این معنا که مکان بایت جهش داده‌شده در یک مورد آزمایشی ممکن است با بایت جهش داده‌ شده در مورد آزمایشی دیگر به دلیل طول متفاوت موارد آزمایشی متفاوت باشد. برای مدیریت این ناهم‌ترازی، از عبارت زیر استفاده می‌کنیم تا تست‌ کیس‌های میانی مختلف تولیدشده در طول فرآیند را از هم متمایز کنیم: ID ∧ (path ID >> 2).

به عنوان مثال، برای موارد آزمایشی 1 و 2 که مسیر یکسانی را پوشش می‌دهند، ما به آن‌ها شناسه‌های متفاوت اختصاص می‌دهیم تا بتوانیم جهش‌ها روی موارد آزمایشی میانی مختلف را تفکیک کنیم. به این ترتیب، حتی اگر همان بایت در موارد آزمایشی 1 و 2 جهش داده شود، ما احتمال‌ها و پاداش‌های مرتبط با انتقال مسیر ناشی از این دو جهش را یکسان در نظر نمی‌گیریم.

4.3.3 آموزش مدل RLF

مدلRLF انتقال‌های مسیر تاریخی و انتقال‌های مسیر پیش‌بینی‌شده را ترکیب می‌کند تا شبکه Actor، شبکه Q-Critic و شبکه V-Critic آموزش داده شوند. در DGF، هدف ما این است که فازر اقداماتی را با پاداش توالی مورد انتظار بالا انتخاب کند و در عین حال اقدامات مختلفی را برای ایجاد انتقال‌های مسیر جدید کاوش کند. بنابراین، در RLF، از آنتروپی (Entropy) برای سنجش تصادفی بودن انتخاب اقدامات استفاده می‌کنیم.

فرض کنید اقدامات در حالت st بر اساس سیاست π انتخاب می‌شوند و احتمال‌های انتخاب اقدامات از یک توزیع پیروی می‌کنند که با π(·|st) نمایش داده می‌شود، آنگاه آنتروپی اقدام به صورت زیر محاسبه می‌شود:

در مدل RLF، هدف شبکه Actor این است که یک سیاست ∗π بیاموزد که هم پاداش (Reward) و هم آنتروپی (Entropy) را بیشینه (maximize) کند.

که در آن، α ضریبی است که کاوش (Exploration) و بهره‌برداری (Exploitation) را متعادل می‌کند، همان‌طور که در SAC پیشنهاد شده است. سپس، ما تابع هدف (Objective Function) برای شبکه Q-Critic و تابع هدف برای شبکه V-Critic را تعریف می‌کنیم تا پارامترهای ω شبکه Q-Critic و پارامترهای ϕ شبکه V-Critic آموزش داده شوند.

برای شبکه Actor، ما پارامترهای σ شبکه Actor را آموزش می‌دهیم تا پاداش توالی مورد انتظار اقدامات را بیشینه کنند، به طوری که پاداش توالی کل (Sequence Rewards) نیز بیشینه شود.

با کمینه کردن این سه تابع هدف، ما پارامترهای سه شبکه را آموزش می‌دهیم تا بتوانند پاداش‌های توالی مورد انتظار (Expected Sequence Rewards) و مقادیر انتقال (Transition Values) را محاسبه کنند و سیاستی برای انتخاب اقدامات طراحی کنند که بتواند پاداش‌های توالی را بیشینه کند.

مدل RLF آموزش‌دیده، دو نوع اطلاعات بهینه‌سازی را به مولفه FO ارائه می‌دهد:

پاداش‌های توالی مورد انتظار و مقادیر انتقال تخمینی
سیاست انتخاب اقدامات در هر مسیر

4.4 بهینه‌سازی استراتژی‌های فازینگ بر اساس گروه اقدام (Optimize Fuzzing Strategies Based on Action Group)

برای هدایت فازر به منظور اجرای توالی‌های انتقال مسیر بهینه با بیشترین پاداش توالی، لازم است استراتژی‌های فازینگ را بر اساس اطلاعات بازخورد از مدل RLF بهینه کنیم. در سال‌های اخیر، تکنیک‌های پیشرفته‌ای برای بهینه‌سازی یک استراتژی فازینگ منفرد پیشنهاد شده‌اند، مانند انتخاب بذر (Seed Selection) [12]، برنامه زمان‌بندی جهش‌گرها (Mutator Schedule) [48] و انتخاب مکان جهش (Mutation Location Selection) [69].

با این حال، بهینه‌سازی یک استراتژی منفرد فازینگ ممکن است به طور قابل توجهی فازر را به سمت توالی‌های انتقال مسیر بهینه هدایت نکند. بنابراین، ما مفهوم گروه اقدام (Action Group) را معرفی می‌کنیم که از پنج عنصر تشکیل شده و تلاش می‌کنیم چندین استراتژی فازینگ را به صورت جامع بهینه کنیم. علاوه بر این، ما الگوریتم بهینه‌سازی دسته‌ای ذرات چندعنصری (Multi-elements Particle Swarm Optimization – MPSO) را پیشنهاد می‌کنیم تا عناصر گروه اقدام را به‌طور همزمان بهینه‌سازی کند.

4.4.1 مفهوم گروه اقدام (The Concept of Action Group)

ما گروه اقدام را به‌صورت یک تاپل متشکل از پنج عنصر تعریف می‌کنیم:

انتخاب بذر (Seed-Selection – SS): نمایانگر احتمال انتخاب یک بذر توسط فازر برای فازینگ است.
انرژی بذر (Seed-Energy – SE): نمایانگر انرژی اختصاص داده‌شده به بذر است که تعیین می‌کند چه تعداد جهش می‌توان روی بذر در مرحله havoc اعمال کرد.
تعداد دورهای havoc (Havoc-Round – HR): نمایانگر تعداد دورهای حلقه‌ای است که برای انتخاب جهش‌گرها و بایت‌های مختلف در مرحله havoc استفاده می‌شود. همه جهش‌گرها و بایت‌های انتخاب‌شده در یک اقدام واحد havoc ادغام می‌شوند. مقدار Havoc-Round می‌تواند یکی از اعداد ۲، ۴، ۸، ۱۶، ۳۲، ۶۴ یا ۱۲۸ باشد.
جهش‌گر (Mutator – MT): نمایانگر جهش‌گری است که برای جهش بذر انتخاب می‌شود. مشابه AFL [39]، DeepGo از ۱۶ نوع جهش‌گر مختلف پشتیبانی می‌کند.
مکان جهش (Location – LC): نمایانگر مکان بایت بذر است که برای جهش انتخاب می‌شود.

هر گروه اقدام به‌صورت یک بردار ۲۷ بعدی نمایش داده می‌شود که از ۵ عنصر تشکیل شده است. همان‌طور که در شکل ۴ نشان داده شده، SS و SE هر دو بردار ۱ بعدی هستند. مقدار SS نشان‌دهنده احتمال انتخاب بذر برای فازینگ در بازه [0,1][0, 1][0,1] است و فازر بر اساس آن بذرها را برای فازینگ انتخاب می‌کند. مقدار SE نشان‌دهنده انرژی اختصاص داده‌شده به بذر است و فازر بر اساس آن تعداد دفعات جهش بذرها را محاسبه می‌کند.

HR یک بردار ۷ بعدی است که هر بعد آن احتمال انتخاب یکی از هفت مقدار مختلف havoc-round (۲، ۴، ۸، ۱۶، ۳۲، ۶۴ و ۱۲۸) را نمایش می‌دهد. فازر تعداد دورهای حلقه‌ای مورد استفاده برای انتخاب جهش‌گرها و مکان‌های جهش را در مرحله havoc بر اساس HR نمونه‌گیری می‌کند.

MT یک بردار ۱۶ بعدی است که هر بعد آن احتمال انتخاب یکی از ۱۶ نوع جهش‌گر مختلف را نشان می‌دهد.

LC یک بردار ۲ بعدی است که بعد اول آن احتمال انتخاب مکان‌های بهینه (Optimal Locations) و بعد دوم آن احتمال انتخاب مکان‌های معمولی (Common Locations) را نشان می‌دهد. ما مکان‌های جهش بذرها را به دو دسته تقسیم می‌کنیم: مکان‌های بهینه و مکان‌های معمولی. مکان‌های بهینه شامل مکان‌های جهشی است که توسط سیاست مدل RLF با احتمال بیش از ۸۰٪ انتخاب شده‌اند، در حالی که مکان‌های معمولی شامل تمام مکان‌های جهش دیگر است.

بر اساس MT و LC، فازر جهش‌گرها و نوع مکان جهش را نمونه‌گیری می‌کند. فازر به‌طور مداوم بذرها را جهش می‌دهد تا ورودی‌های جدید تولید کند بر اساس ۵ عنصر موجود در گروه اقدام. همان‌طور که در شکل ۴ نشان داده شده، ما هر عنصر را به‌صورت یک بردار نمایش می‌دهیم و سپس پنج بردار را به هم الحاق می‌کنیم تا یک بردار واحد برای نمایش گروه اقدام یک بذر ایجاد شود.

4.4.2 الگوریتم بهینه‌سازی دسته‌ای ذرات چند عنصری (Multi-elements Particle Swarm Optimization – MPSO):

برای بهینه‌سازی همزمان پنج عنصر موجود در گروه اقدام، ما هر گروه اقدام (action group) را به‌ عنوان یک ذره نمایش می‌دهیم که با یک بردار ۲۷ بعدی مشخص می‌شود و بهینه‌سازی گروه اقدام را به‌صورت یک مسأله بهینه‌سازی چند عنصری (Multi-element Optimization Problem) در نظر می‌گیریم.

ما الگوریتم بهینه‌سازی دسته‌ای ذرات چندعنصری (MPSO) را برای تحقق این بهینه‌سازی پیشنهاد می‌کنیم. بهینه‌سازی گروه اقدام می‌تواند فازر را به سمت توالی‌های انتقال مسیر مطلوب با پاداش توالی بالا هدایت کند.

همان‌طور که در فصل دوم معرفی شد، الگوریتم PSO از ذرات بدون جرم (Massless Particles) برای شبیه‌سازی پرندگان در یک دسته استفاده می‌کند. هر ذره به‌صورت مستقل به دنبال یافتن راه‌حل بهینه می‌گردد و آن را به‌ عنوان مقدار بهترین محلی (Local Best Value) ثبت می‌کند. سپس مقادیر بهترین محلی میان تمام ذرات در کل دسته (Swarm) به اشتراک گذاشته می‌شود تا بهترین مقدار جهانی (Global Best Value) به‌ عنوان راه‌حل بهینه پیدا شود.

هر ذره دو ویژگی اصلی دارد: سرعت (Velocity) و موقعیت (Position). سرعت نشان‌ دهنده سرعت حرکت و موقعیت نشان‌دهنده جهت حرکت است. تمام ذرات در دسته به‌طور مداوم سرعت و موقعیت خود را بر اساس بهترین مقدار محلی و بهترین مقدار جهانی که در کل دسته به اشتراک گذاشته شده است، تنظیم می‌کنند:

که در آن، vi نشان‌دهنده سرعت ذره iام و xi نشان‌دهنده موقعیت ذره iام است، r وزن جابجایی تصادفی در بازه [0,1][0,1][0,1] را نشان می‌دهد، lbestilbest_ilbesti بهترین موقعیت محلی (local best position) یافت‌شده توسط ذره iام است و gbestigbest_igbesti بهترین موقعیت جهانی (global best position) یافت‌شده توسط تمام ذرات را نمایش می‌دهد.

ضریب اینرسی ω مقداری غیرمنفی است که مقدار بالاتر آن باعث قوی‌تر شدن بهینه‌سازی جهانی و ضعیف‌تر شدن توانایی بهینه‌سازی محلی (لوکال) در الگوریتم PSO می‌شود. در این مقاله، ما از روش وزن اینرسی کاهش‌یابنده خطی (Linearly Decreasing Inertia Weight – LDIW) [70] برای تعیین مقدار ω استفاده می‌کنیم:

که در آن، ωini و ωend به‌ ترتیب نشان‌دهنده مقدار اینرسی اولیه و مقدار اینرسی نهایی هستند. بر اساس روش LDIW، معمولاً ωini و ωend به ترتیب برابر ۰.۴ و ۰.۹ تنظیم می‌شوند. g نشان‌دهنده تعداد تکرارهای انجام‌شده توسط ذره جاری است که برابر با تعداد جهش‌هایی است که فازر روی بذر (seed) متناظر انجام داده است. G نشان‌دهنده حداکثر تعداد تکرارها است که برابر با کل دفعات جهش محاسبه‌شده بر اساس انرژی بذر (seed) می‌باشد. در DeepGo، تعداد دفعات جهش بذرها توسط انرژی اختصاص داده‌شده به بذرها تعیین می‌شود.

بهترین موقعیت محلی و کارایی محلی (Local Best Position and Local Efficiency): در الگوریتم MPSO، هر ذره دارای بهترین موقعیت محلی lbest و کارایی محلی ef flocal خود است. برای یک ذره مشخص، موقعیت x1 تنها زمانی برتر از موقعیت x2 محسوب می‌شود که کارایی محلی به‌دست‌آمده توسط ذره در x1 از کارایی محلی در x2 بیشتر باشد.

ما از کارایی محلی برای کمی‌سازی کارایی جهش‌های استراتژی‌های فازینگ که از پنج عنصر تشکیل شده‌اند، برای یک ذره مشخص استفاده می‌کنیم. کارایی محلی بر اساس میانگین پاداش‌های توالی مورد انتظار (Expected Sequence Rewards) تمام جهش‌هایی که فازر در مسیر متناظر با ذره انجام داده است، محاسبه می‌شود.

در DGF، هر جهش روی بذر منجر به یک انتقال مسیر از p به ′p می‌شود. مطابق معادله ۸، در هر انتقال مسیر، از عبارت r + γV t π (p′) برای ارزیابی پاداش‌های توالی مورد انتظار استفاده می‌کنیم. بر اساس این مقدار، کارایی محلی محاسبه می‌شود.

که در آن، V t π (p′) نشان‌دهنده مقدار انتقال (Transition Value) مسیر p′ است که توسط جهش iام پوشش داده شده است.

موقعیت بهترین جهانی و کارایی جهانی (Global Best Position and Global Efficiency): ما از کارایی جهانی (Global Efficiency) برای کمی‌سازی کارایی فازینگ فازر استفاده می‌کنیم. از آنجا که کارایی جهانی فازر به کارایی محلی ذرات مختلف و روابط بین ذرات بستگی دارد، موقعیت جهانی همه ذرات را بر اساس کارایی فازینگ در یک چرخه فازینگ تعیین می‌کنیم.

یک ذره (particle) تنها زمانی در موقعیت بهترین جهانی (gbest) قرار دارد که کارایی فازینگ فازر در آن موقعیت از کارایی هر موقعیت دیگر بیشتر باشد. ما از میانگین پاداش‌های توالی در طول چرخه فازینگ برای ارزیابی کارایی جهانی استفاده می‌کنیم:

که در آن، fglobal نشان‌دهنده کارایی جهانی است، pj نشان‌دهنده بذر jام، gj نشان‌دهنده کل تعداد جهش‌ها برای pj و U نشان‌دهنده تعداد بذرهایی است که در چرخه فازینگ جاری مورد فازینگ قرار گرفته‌اند.

الگوریتم MPSO:

				
					Input: Ω(s,p)
Output: Us, Ω(s,p′)
	Initial(Ω(s,p))
	while f uzzing do
		for (si, pi) in Ω(s,p) do
			if P rob Sels(pi(SS)) == True then
				mni ←Cal_MN(pi(SE))
				for j in mni do
					hrj ← $P rob Selh(pi(HR), hmj ←<>
					for k in hrj do
						lck ← P rob Sell(pi(LC)),
						mtk ← P rob Selm(pi(MT)),
						hmj ← hmj ∪ (lck , mtk )
					end for
					new input = Mutate(hmj , si)
					ef flocal, ef fglobal = Cal_eff(si, new input)
					Update(lbest, gbest, pi)
				end for
			end if
		end for
	end while

در طول فرآیند فازینگ، ما کارایی محلی و کارایی جهانی ذرات را مطابق با معادلات (۲۱) و (۲۲) محاسبه کرده و lbest و gbest را ثبت می‌کنیم. سپس موقعیت‌های فضایی ذرات را بر اساس معادلات (۱۸)، (۱۹) و (۲۰) به‌روزرسانی می‌کنیم و تمام ذرات را به سمت جهت‌های lbest و gbest حرکت می‌دهیم.

با این رویکرد، ما گروه‌های اقدام تمام بذرها را بهینه‌سازی می‌کنیم تا فازر را از طریق توالی‌های انتقال مسیر بهینه به هدف هدایت کنیم.

فرآیند MPSO در الگوریتم ۱ نشان داده شده است، که در آن، s نشان‌دهنده بذر، p نشان‌ دهنده ذره و Ω(s,p) مجموعه‌ای است که تمام بذرها و ذرات متناظر آن‌ها را شامل می‌شود. تابع Prob_Sels مشخص می‌کند که آیا بر اساس مقدار SS، بذر باید فاز شود یا خیر.mni نشان‌دهنده تعداد دفعات جهش بذر است و تابع Cal_MN تعداد دفعات جهش بذر را بر اساس SE محاسبه می‌کند.

توابع ProbSelh ،ProbSell و ProbSelm به ترتیب به‌صورت احتمالی مقادیر مربوط به hr برای HR، lc برای مکان جهش بر اساس LC و mt برای جهش‌گر بر اساس MT را انتخاب می‌کنند.

در ابتدا، پنج عنصر در تمام ذرات مقداردهی اولیه می‌شوند (خط ۱). برای SS و SE بر اساس ویژگی‌های بذرها (مانند اندازه bitmap و سرعت اجرا)، AFL [39] احتمال انتخاب بذرها برای فازینگ و انرژی اختصاص داده‌ شده به بذرها را محاسبه می‌کند. ما از احتمال‌ها و انرژی بذر به‌دست‌آمده از روش AFL به‌عنوان مقدار اولیه SS و SE استفاده می‌کنیم.

برای HR ،LC و MT از میانگین احتمال به‌عنوان مقدار اولیه موقعیت فضایی آن‌ها استفاده می‌کنیم (مثلاً 1/16 برای هر جهش‌گر). در طول فرآیند فازینگ، فازر به ترتیب:

بذرها را بر اساس SS برای فازینگ انتخاب می‌کند (خط ۴).
تعداد دفعات جهش را بر اساس SE محاسبه می‌کند (خط ۵).
مقادیر HR (یعنی hrjhr_jhrj) را انتخاب می‌کند (خط ۷).
بایت‌های بذر برای جهش (یعنی lcklc_klck) را بر اساس LC انتخاب می‌کند (خط ۹).
جهش‌گرها (یعنی mtkmt_kmtk) را بر اساس MT انتخاب می‌کند (خط ۱۰).

در هر چرخه hrj ،mtk و lck با هم ترکیب می‌شوند تا جهش havoc (یعنی hmj) ایجاد شود (خط ۱۱) و فازر از hmj برای جهش بذر si و تولید ورودی جدید استفاده می‌کند (خط ۱۳). سپس، MPSO کارایی محلی و کارایی جهانی را محاسبه می‌کند (خط ۱۴) و lbest، gbest و موقعیت ذره pi را به‌روزرسانی می‌کند (خط ۱۵).

قابل توجه است که مقدار تمام ابعاد ذره به طور مداوم بر اساس معادلات (۱۸)، (۱۹) و (۲۰) تغییر می‌کند تا موقعیت فضایی ذره به‌روز شود و ذره به سمت lbest و gbest حرکت کند.

برای مثال، اگر یک ذره کارایی محلی پایینی داشته باشد که منجر به کاهش کارایی جهانی فازر شود، بر اساس معادلات (۱۸)، (۱۹) و (۲۰)، مقادیر SS و SE به‌تدریج در طول فرآیند MPSO کاهش می‌یابند.

به محض اینکه کامپوننت FO اولین بار اطلاعات بازخورد را از مدل RLF دریافت کند، الگوریتم MPSO اجرا خواهد شد و تا پایان فرآیند فازینگ ادامه خواهد یافت.

5. پیاده‌سازی

پیاده‌سازی DeepGo عمدتاً از سه کامپوننت تشکیل شده است: فازر، VEE، و مدل RLF. برای آنالیزور استاتیک در فازر، از LLVM نسخه ۱۱.۰ استفاده می‌کنیم. ما از LLVM IR برای ابزارگذاری برنامه و دریافت اطلاعاتی مانند فاصله در سطح بلاک‌های پایه و شاخه‌های هم‌خانواده بهره می‌بریم.

فازر بر پایه AFLGo ساخته شده و شامل ۲۱۰۰ خط کد C است، و VEE و مدل RLF با حدود ۱۳۰۰ خط کد Python پیاده‌سازی شده‌اند.

به‌طور جزئی، شبکه‌های عصبی VEE در PyTorch 1.13.0 با پنج لایه کاملاً متصل (fully connected) پیاده‌سازی شده‌اند. لایه‌های مخفی از تابع فعال‌سازی Swish استفاده می‌کنند. شبکه‌ها برای ۵۰۰ دوره آموزش داده می‌شوند و از ابزار tensorboard برای نظارت خودکار بر مقادیر زیان (Loss) بهره می‌بریم تا مشخص شود آیا به مقدار کوچکی همگرا می‌شوند یا خیر. در صورتی که مقادیر Loss در VEE و RLF همگرا شوند، شبکه‌ها به‌ طور خودکار آموزش را متوقف می‌کنند.

شبکه‌های مدل RLF شامل سه لایه کاملاً متصل هستند. برای ابرپارامترهای مدل RLF، با مراجعه به تنظیمات نرخ یادگیری برای Q-Critic، V-Critic و Actor در SAC، مقدار ۰.۰۰۵ تنظیم شده است تا کارایی یادگیری و همگرایی مدل RLF تضمین شود (در فرآیند آزمایش، هر سه شبکه به سرعت همگرا می‌شوند).

نکتهٔ قابل توجه این است که هنگام استفاده از DeepGo برای تست برنامه‌ها، فرآیند فازینگ، آموزش مدل‌ها و پیش‌بینی انتقال مسیرها به‌صورت هم‌زمان انجام می‌شوند. ما از یک GPU اضافی برای آموزش مدل‌های VEE و RLF بر اساس اطلاعاتی که در طول فرآیند فازینگ جمع‌آوری می‌شود استفاده می‌کنیم. تمام زمانی که صرف آموزش و پیش‌بینی توسط مدل‌های VEE و RLF می‌شود، به‌عنوان بخشی از بودجهٔ زمانی فرآیند فازینگ محاسبه می‌شود (که به‌صورت wall clock time در نظر گرفته شده است).

6. ارزیابی

به‌منظور ارزیابی اثربخشی DeepGo، آزمایش‌هایی انجام دادیم که هدف آن‌ها پاسخ به پنج سؤال پژوهشی زیر است:

RQ1: عملکرد DeepGo از نظر رسیدن به مکان‌های کد هدف چگونه است؟
RQ2: عملکرد DeepGo از نظر آشکارسازی آسیب‌پذیری‌های شناخته‌شده چگونه است؟
RQ3: عملکرد VEE در پیش‌بینی احتمال‌ها و پاداش‌های انتقال مسیرها چگونه است؟
RQ4: آیا مدل RLF و مؤلفه FO می‌توانند فازر را به سمت توالی‌های انتقال مسیر با پاداش تجمعی بالا هدایت کنند؟
RQ5: مؤلفه‌های VEE، RLF و FO چه سهمی در عملکرد کلی DeepGo دارند؟

6.1 تنظیمات ارزیابی

معیارهای ارزیابی. برای ارزیابی عملکرد تکنیک‌های مختلف فازینگ، از دو نوع معیار استفاده می‌کنیم:

Time-to-Reach (TTR) برای ارزیابی زمانی به‌کار می‌رود که صرف تولید اولین ورودی‌ای می‌شود که بتواند به مکان کد هدف برسد.
Time-to-Expose (TTE) برای ارزیابی زمانی استفاده می‌شود که صرف آشکارسازی آسیب‌پذیری‌ها (شناخته‌شده یا افشانشده) در مکان‌های کد هدف می‌گردد. وقوع یک کرش مشاهده‌شده نشان می‌دهد که فازر با موفقیت آسیب‌پذیری را آشکار کرده است.

بنچمارک‌های ارزیابی. ما دو مجموعه‌داده را انتخاب کردیم که به‌طور گسترده توسط تکنیک‌های پیشرفته فازینگ خاکستری جهت‌دار (DGF) مورد استفاده قرار گرفته‌اند (برای مثال، WindRanger [22] و BEACON [31]).

UniBench‏[43] برنامه‌های دنیای واقعی از انواع مختلف به‌همراه مجموعه بذر متناظر را فراهم می‌کند. تکنیک‌های پیشرفته فازینگ، مانند WindRanger، از UniBench به‌عنوان بنچمارک ارزیابی استفاده کرده‌اند. برای پاسخ به RQ1، RQ3، RQ4 و RQ5، ما ۲۰ برنامه از UniBench را مورد آزمایش قرار دادیم و با انجام آزمایش‌های مقدماتی، از ++AFL ‏[23] برای انتخاب مکان‌های کد هدف در هر برنامه استفاده کردیم. بدین‌صورت که ابتدا ++AFL را به‌مدت ۴۸ ساعت اجرا کرده و تمامی بذرهای تولیدشده توسط ++AFL را جمع‌آوری کردیم. سپس با استفاده از afl-cov این بذرها را مجدداً اجرا کردیم تا بتوانیم مکان‌های کدی که پوشش داده شده‌اند و زمان پوشش آن‌ها را به‌دست آوریم؛ این اطلاعات به‌شکل زوج‌هایی مانند (line, time) نمایش داده می‌شوند. در نهایت، از میان مکان‌هایی که زمان رسیدن به آن‌ها بین ۱ ساعت تا ۴۸ ساعت بوده است (یعنی بیش از ۱ ساعت)، به‌صورت تصادفی ۴ مکان کد را به‌عنوان اهداف انتخاب کردیم.
AFLGo testsuite‏[12] در مقاله و وب‌سایت AFLGo برای ارزیابی «جهت‌مندی» فازینگ خاکستری هدایت‌ شده (DGF) معرفی شده است. این مجموعه آزمون توسط تکنیک‌های پیشرفته DGF به‌ عنوان بنچمارک مورد استفاده قرار گرفته تا قابلیت بازتولید باگ‌ها را بررسی کنند. برای پاسخ به RQ2، ما AFLGo testsuite را به‌عنوان بنچمارک انتخاب کردیم تا توانایی DeepGo در آشکارسازی آسیب‌پذیری‌های شناخته‌شده را ارزیابی کنیم.

خطوط پایه (Baselines). ما در ارزیابی خود، DeepGo را با فازرهای خاکستری هدایت‌شدهٔ پیشرفته‌ای که در زمان نگارش این مقاله به‌صورت عمومی در دسترس بودند مقایسه کردیم؛ از جمله WindRanger، BEACON، ParmeSan و AFLGo.

تنظیمات آزمایش. ما آزمایش‌ها را روی سیستمی مجهز به پردازنده Intel(R) Xeon(R) Gold 6133 CPU @ 2.50GHz با ۸۰ هسته و سیستم‌عامل Ubuntu 20.04 LTS انجام دادیم. تمامی آزمایش‌ها ۵ بار تکرار شدند و برای هر بار، بودجه زمانی ۲۴ ساعت در نظر گرفته شد. هنگام آزمون برنامه‌های موجود در UniBench و مجموعه‌آزمون AFLGo، از بذرهای (seed) موجود در seed corpus پیشنهادی بنچمارک به‌عنوان بذر اولیه استفاده کردیم. برای تحلیل نتایج آزمایش‌ها، از آزمون Mann–Whitney U (مقدار p) برای سنجش معناداری آماری استفاده کردیم. علاوه بر این، از آماره Vargha–Delaney ‏(Â12)‏ [4] برای اندازه‌گیری احتمال عملکرد بهتر یک تکنیک نسبت به تکنیک دیگر بهره گرفتیم.

6.2 رسیدن به نقاط هدف

برای پاسخ به RQ1، ما ۲۰ برنامه از UniBench را با مجموع ۸۰ نقطهٔ هدف مورد آزمایش قرار دادیم و مقدار TTR فازرهای مختلف را ارزیابی کردیم. آستانهٔ زمان پایان (timeout) برابر با ۲۴ ساعت تنظیم شد. نتایج تفصیلی TTR در جدول III در پیوست ارائه شده‌اند. در جدول 3، ورودی «N/A» نشان‌ دهندهٔ آن است که فازر به دلیل مشکلات کد موفق به کامپایل برنامه نشده است، در حالی که «T.O.» بیانگر آن است که فازر نتوانسته است در بازهٔ زمانی اختصاص‌یافتهٔ ۲۴ ساعته به نقطهٔ هدف برسد. در مورد WindRanger، برخی ورودی‌ها به دلیل بروز خطاهای segmentation fault یا ناتوانی در به‌دست‌آوردن اطلاعات فاصله در حین آزمون برنامه با «N/A» مشخص شده‌اند. در خصوص BEACON و ParmeSan، بخش عمده‌ای از ورودی‌های «N/A» احتمالاً به این دلیل است که این ابزارها با UniBench سازگار نیستند. برای ورودی‌های «N/A»، از آن‌ها در محاسبهٔ ضریب تسریع (speedup) و مقادیر p استفاده نکردیم. در مورد ورودی‌های «T.O.»، بر این باوریم که این فازرها ممکن است در فرآیندهای فازینگ بعدی به اهداف برسند؛ بنابراین، برای محاسبهٔ speedup و مقادیر p، مقدار اندکی بزرگ‌تر برابر با ۱۵۰۰ دقیقه را در نظر گرفتیم.

بر اساس نتایج TTR، DeepGo در مقایسه با AFLGo ‏(22/80)، BEACON ‏(11/80)، WindRanger ‏(19/80) و ParmeSan ‏(9/80)، می‌تواند بیشترین تعداد از نقاط هدف یعنی 73 مورد از 80 را در محدودهٔ زمانی تعیین‌شده پوشش دهد. علاوه بر این، در اغلب نقاط هدف (67 مورد از 80)، DeepGo عملکردی بهتر از سایر فازرها دارد و کوتاه‌ترین زمان رسیدن به هدف را به دست می‌آورد.

از نظر میانگین TTR برای رسیدن به نقاط هدف، DeepGo به‌ ترتیب نسبت به AFLGo، BEACON، WindRanger و ParmeSan بهبود سرعتی برابر با ×3.23, ×1.72, ×1.81 و ×4.83 نشان می‌دهد. ما هر دو آزمون آماری Mann-Whitney U (بر اساس مقدار p-value) و Vargha-Delaney ‏( ˆA12 ) را اجرا کردیم که در آن‌ها تمام مقادیر p-value کمتر از 0.05 بوده و مقادیر میانگین ˆA12 در مقایسه با AFLGo، BEACON، WindRanger و ParmeSan به‌ ترتیب 0.86، 0.81، 0.83 و 0.89 به‌دست آمده است.

بر اساس تحلیل‌های فوق، می‌توان نتیجه گرفت که DeepGo قادر است سریع‌تر از فازرهای مبنا به نقاط هدف برسد.

برای نمایش نتایج به صورت مستقیم، از نمودار میله‌ای استفاده کردیم. در شکل 5، محور افقی نشان‌دهندهٔ شناسهٔ نقاط هدف (1 تا 80) و محور عمودی نشان‌دهندهٔ کل زمان TTR همهٔ فازرها به دقیقه است، و هر میلهٔ کوتاه‌تر نشان‌دهندهٔ زمان کمتر برای رسیدن به هدف است.

چون برخی فازرها نمی‌توانند بعضی برنامه‌ها را کامپایل کنند یا در محدودهٔ زمانی 24 ساعت به نقاط هدف برسند، TTR برای این موارد ثبت نمی‌شود. برای تمایز این موارد، در شکل 5 مقدار 1500 دقیقه برای چنین نقاطی در نظر گرفته شده است.

از نمودار مشخص است که میله‌های آبی (DeepGo) به‌طور قابل توجهی کوتاه‌تر از سایر میله‌ها هستند، که نشان می‌دهد DeepGo می‌تواند بیشتر نقاط هدف را سریع‌تر از فازرهای مبنا پوشش دهد.

6.3 افشای آسیب‌پذیری‌ها

برای پاسخ به RQ2، همانند BEACON و WindRanger، از AFLGo testsuite استفاده کردیم و آسیب‌پذیری‌های شناخته‌شده با شناسه CVE در برنامه‌ها را به عنوان نقاط هدف مشخص کردیم. اطلاعات مربوط به نقاط هدف و نتایج TTE در جدول 1 ارائه شده است.

همان‌طور که جدول نشان می‌دهد، از میان 20 آسیب‌پذیری، DeepGo (19) بیشترین تعداد آسیب‌پذیری‌های کشف‌شده را نسبت به AFLGo (14)، BEACON (13)، WindRanger (16) و ParmeSan (14) دارد. علاوه بر این، در اکثر نقاط هدف (14 از 20)، DeepGo عملکرد بهتری نسبت به تمام فازرهای مبنا داشت و کمترین TTE را به دست آورد.

با توجه به میانگین TTE برای کشف آسیب‌پذیری‌ها، DeepGo به ترتیب ×2.61, ×3.32, ×2.43 و ×2.53 سریع‌تر از AFLGo، BEACON، WindRanger و ParmeSan عمل کرد. تمامی مقادیر P (p-valueها) کمتر از 0.05 بودند و میانگین A12ˆ نسبت به AFLGo، BEACON، WindRanger و ParmeSan برابر با 0.79، 0.72، 0.75 و 0.81 بود.

بر اساس تحلیل بالا، می‌توان نتیجه گرفت که DeepGo می‌تواند آسیب‌ پذیری‌های شناخته‌شده را سریع‌تر از فازرهای پایه‌ای (baseline fuzzers) آشکار کند.

6.4 اثربخشی VEE

برای پاسخ به سوال پژوهشی ۳ (RQ3)، پیش‌بینی‌های انجام‌ شده توسط VEE را در زمانی که DeepGo تعداد 20 برنامه از مجموعه UniBench را آزمایش می‌کرد، تحلیل کردیم. برای هر ورودی (pt, at)، VEE خروجی‌های (pt+1, rt) را با احتمال‌ها و پاداش‌های متفاوت (یعنی احتمال‌های پیش‌بینی‌شده و پاداش‌های پیش‌بینی‌شده) ارائه می‌دهد.

فازر همزمان، در طول فرآیند فازینگ، با اعمال اقدام at در مسیر pt باعث انتقال مسیرها با احتمال‌ها و پاداش‌های متفاوت می‌شود (یعنی احتمال‌ها و پاداش‌های واقعی). برای تحلیل دقت پیش‌بینی‌های VEE، معیار دقت (Accuracy) را به‌صورت زیر تعریف کردیم:

مقدار واقعی (real value) نشان‌دهنده‌ی احتمال واقعی یا پاداش واقعی و مقدار پیش‌بینی ‌شده (predicted value) نشان‌دهنده‌ی احتمال یا پاداش پیش‌بینی‌شده است. مقدار بالاتر دقت (Accuracy) نشان‌دهنده‌ی صحت بالاتر پیش‌بینی‌ها است.

در طول آزمایش هر برنامه از UniBench، دو نوع دقت هر انتقال مسیر هر ۳۰ دقیقه یکبار محاسبه شد. از آنجا که DeepGo آزمایش ۲۰ برنامه را پنج بار تکرار کرد، در هر نقطه زمانی، میانگین دقت احتمال پیش‌بینی‌شده (AAPP) و میانگین دقت پاداش پیش‌بینی‌شده (AAPR) تمام انتقال‌های مسیر تمام برنامه‌ها بر اساس معادله‌ی (23) محاسبه شد تا دقت پیش‌بینی‌های VEE ارزیابی شود.

برای نمایش ساده و قابل فهم نتایج، از نمودار خطی استفاده شد. در شکل ۶، محور افقی نشان‌دهنده‌ی زمان fuzzing (از ۰ ساعت تا ۲۴ ساعت) و محور عمودی نشان‌دهنده‌ی دقت‌های AAPP و AAPR است که هر دو در بازه‌ی [0, 1] قرار دارند. همان‌طور که در شکل ۶ مشاهده می‌شود، از ۰.۵ ساعت تا ۲۴ ساعت، دقت‌های AAPP و AAPR همگی بالاتر از ۸۰٪ هستند و میانگین دقت‌های AAPP و AAPR در ۴۸ نقطه‌ی زمانی به ترتیب برابر با ۹۲.۵۷٪ و ۹۱.۱۰٪ است.

همچنین، برای نمایش دقت‌ها در برنامه‌های مختلف و در نقاط زمانی متفاوت از نمودارهای جعبه‌ای (box charts) استفاده شد. خط آبی نمایانگر میانه (median) و طول جعبه نشان‌دهنده‌ی بازه‌ی توزیع داده‌ها است. از این نمودارها مشاهده می‌شود که دقت‌های AAPP و AAPR در میان برنامه‌های مختلف تغییر قابل توجهی ندارند (≤ ۱۵٪) و در هر نقطه زمانی مقدار بالایی (≥ ۸۰٪) حفظ می‌کنند.

این نتایج نشان می‌دهد که VEE قادر است انحراف را هنگام شبیه‌سازی مدل انتقال مسیر محدود کند و احتمال‌ها و پاداش‌های انتقال مسیر را با دقت بالا پیش‌بینی نماید.

6.5 اثربخشی مدل RLF و مؤلفه FO

برای پاسخ به سوال پژوهشی ۴ (RQ4)، پاداش‌های انتقال مسیرهایی که در طول فرآیند فازینگ رخ داده بودند، جمع‌آوری شد تا میانگین پاداش انتقال مسیرها در دنباله‌ی انتقال مسیرها محاسبه شود. این کار نشان می‌دهد که آیا مدل RLF و مؤلفه FO می‌توانند فازر را هدایت کنند تا دنباله‌های بهینه‌ی انتقال مسیر با پاداش‌های بالاتر را اجرا نماید یا خیر.

از آنجا که بهینه‌سازی‌های DeepGo روی استراتژی‌های فازینگ مبتنی بر مدل RLF و مؤلفه FO هستند، حذف هر یک از آن‌ها باعث بی‌اثر شدن این بهینه‌سازی‌ها می‌شود. بنابراین، هر دو مؤلفه حذف شدند و یک فازر جدید به نام DeepGo-r ایجاد شد. ما از DeepGo و DeepGo-r برای آزمایش ۲۰ برنامه از مجموعه UniBench استفاده کردیم و پاداش تمام انتقال‌های مسیر برای تمام برنامه‌ها را هر ۳۰ دقیقه محاسبه کردیم. سپس در هر نقطه زمانی، میانگین پاداش (AR) برای ۲۰ برنامه محاسبه شد.

برای نمایش مستقیم نتایج، از نمودار خطی استفاده شد. در شکل ۷، محور افقی نشان‌دهنده‌ی زمان فازینگ (از ۰.۵ ساعت تا ۲۴ ساعت) و محور عمودی نشان‌دهنده‌ی مقادیر AR است، که در بازه‌ی [1-, 1-] قرار دارد.

همان‌طور که در شکل ۷ مشاهده می‌شود، از ۰.۵ ساعت تا ۲۴ ساعت، روند کلی AR نزولی است که با این واقعیت هم‌خوانی دارد که با پیشرفت فرآیند فازینگ، یافتن بذرهای (seed) جدید برای فازر دشوارتر می‌شود.

میانگین پاداش AR برای DeepGo به‌طور قابل توجهی بالاتر از DeepGo-r بود؛ در هر نقطه زمانی، میانگین AR DeepGo تقریباً ۴.۲۶ برابر AR DeepGo-r بود. این امر نشان می‌دهد که مدل RLF و مؤلفه FO می‌توانند فازر را هدایت کنند تا دنباله‌های بهینه‌ی انتقال مسیر را اجرا نموده و سریع‌تر به سایت هدف برسد.

6.6 مطالعه‌ی حذف مؤلفه‌ها (Ablation Study)

برای پاسخ به سوال پژوهشی ۵، مطالعه‌ی حذف مؤلفه‌ها انجام شد تا تأثیر VEE، مدل RLF و مؤلفه FO بر عملکرد DeepGo بررسی شود. برای نشان دادن این که VEE، مدل RLF و مؤلفه FO می‌توانند جهت‌دهی (directedness) را بهبود بخشند، VEE از DeepGo حذف شد و یک ابزار جدید به نام DeepGo-v ایجاد شد. سپس آزمایش TTR با استفاده از DeepGo-v و DeepGo-r بر روی مجموعه UniBench انجام شد.

نتایج دقیق DeepGo-v و DeepGo-r در جدول 3 در ضمیمه ارائه شده است. بر اساس نتایج TTR، DeepGo توانست ۷۳ از ۸۰ سایت هدف را پیدا کند، در حالی که DeepGo-v ۳۲ از ۸۰ و DeepGo-r تنها ۱۸ از ۸۰ سایت هدف را رسیدند. علاوه بر این، DeepGo به ترتیب ۲.۰۵× و ۳.۷۲× بهتر از DeepGo-v و DeepGo-r در میانگین TTR برای رسیدن به سایت‌های هدف عمل کرد.

مقادیر p-value برابر با ۰.۰۱۳ و ۰.۰۰۶ و میانگین A12ˆ نسبت به DeepGo-v و DeepGo-r به ترتیب برابر با ۰.۸۳ و ۰.۹۰ بود. این نتایج نشان می‌دهند که VEE، مدل RLF و مؤلفه FO تأثیر قابل توجهی در کاهش TTR دارند.

ما همچنین از داده‌های میانی (intermediate data) استفاده می‌کنیم تا نشان دهیم DeepGo می‌تواند از مسیرهای غیرقابل اجرا و سخت پرهیز کند. ابتدا، یک seed را قابل دسترس (reachable seed یا Rseed) در نظر می‌گیریم اگر مسیر اجرایی آن حداقل یک بلوک پایه قابل دسترس را پوشش دهد (یعنی فاصله BB ≥ 0). ما میانگین تعداد Rseedهای تولیدشده توسط fuzzers مختلف هنگام آزمایش برنامه‌های مختلف و همچنین نسبت Rseedها (PRseed) نسبت به کل seedها را محاسبه می‌کنیم. اگر تعداد و نسبت Rseedها بیشتر باشد، نشان‌دهنده‌ی این است که fuzzer می‌تواند از صرف زمان بر مسیرهای غیرقابل اجرا و سخت پرهیز کند.

دوم، تعداد کل مسیرهایی که fuzzer برای رسیدن به سایت‌های هدف طی می‌کند (reached paths یا Rpath) را در طول آزمایش ۲۰ برنامه از UniBench اندازه‌گیری می‌کنیم. برای یک سایت هدف مشخص، مسیرهای مختلف می‌توانند نتایج آزمایشی متفاوتی ایجاد کنند. با شمارش تعداد کل Rpathها، می‌توان مشخص کرد که آیا DeepGo نسبت به سایر fuzzers می‌تواند مسیرهای بیشتری برای رسیدن به سایت هدف کشف کند یا خیر، و بنابراین امکان تست متنوع‌تر سایت هدف را فراهم می‌کند.

از نتایج جدول 2 می‌توان دو نتیجه گرفت:
۱. با مقایسه‌ی Rseed و Rpath تمام fuzzers، مشاهده می‌کنیم که DeepGo می‌تواند در همان بودجه زمانی Rseedهای بیشتری تولید کند.

۲. اگرچه BEACON دارای Rpath بالاتری است، اما به دلیل کوتاه کردن برخی مسیرهای قابل دسترس به سایت هدف، دارای کمترین Rseed در بین تمام fuzzers است.

DeepGo نیز علاوه بر BEACON، بالاترین نسبت Rseed (PRseed) را در بین تمام fuzzers دارد. این سه معیار میانی نشان می‌دهند که DeepGo می‌تواند مسیرهای بهینه و قابل اجرا به سایت هدف تولید کند، به‌طوری که از مسیرهای غیرقابل اجرا و سخت پرهیز می‌کند.

6.7 مطالعه‌ی موردی عملکرد DeepGo

برای نشان دادن اینکه چرا DeepGo می‌تواند سریع‌تر به نقاط هدف برسد، از نقطهٔ هدف get_audio.c:1605 در نسخهٔ lame3.99.5 به‌عنوان یک نمونه برای انجام مطالعهٔ موردی استفاده کردیم. همان‌طور که در لیست ۱ نشان داده شده است، خط ۲۴ به‌عنوان نقطهٔ هدف تعیین شده است. از آنجا که محدودیت‌های مسیر (path constraints) در خط ۲، خط ۱۶ و خط ۲۳ همگی محدودیت‌هایی هستند که برآورده کردن آن‌ها دشوار است، ابزارهای AFLGo و WindRanger نتوانستند در بازهٔ زمانی ۲۴ ساعته به نقطهٔ هدف برسند؛ در حالی که DeepGo در دقیقهٔ ۲۸۲ به نقطهٔ هدف (خط ۲۴) رسید.

در مورد AFLGo و WindRanger، ابزار AFLGo توانست به خطوط ۱۱–۱۲ برسد و WindRanger نیز توانست به خط ۱۷ برسد. با این حال، هیچ‌یک از آن‌ها نتوانستند محدودیت‌های مسیر در خطوط ۲، ۹–۱۰، ۱۶ و ۲۳ را به‌طور هم‌زمان برآورده کنند تا به نقطهٔ هدف برسند. نمونه‌ای از نقطهٔ هدف get_audio.c:1605 در نسخهٔ lame3.99.5 به شرح زیر است:

				
					int init_infile(){
	if (global.snd_file == 0) {
		global.music_in = open_wave_file(gfp, inPath);
	}
	else
		...
	}
	static FILE * open_wave_file(){
		if (global_reader.input_format != sf_raw &&
				(global_reader.input_format != sf_ogg){
			global_reader.input_format =
				parse_file_header(gfp,musicin);
		}
	}
	static int parse_file_header(){
		if (type == IFF_ID_FORM) {
			int const ret = parse_aiff_header(gfp, sf);
		}
		else
			...
	}
	static int parse_aiff_header(){
		if (dataType == IFF_ID_2CBE) {
			global.pcmswapbytes = !global_reader.swapbytes;
		}
		else
			...
	}

در نمونه کد بالا، شرط‌ها در مکان‌های مختلف کد با بایت‌های متفاوتی از seed مرتبط هستند (برای مثال، مقدار global.snd_file در خط ۲ و global_reader.input_format در خط ۱۱ توسط بایت‌های متفاوتی از seed تعیین می‌شوند) و تغییر دادن بایت‌های مرتبط باعث انتقال‌های متفاوت مسیر و دریافت پاداش‌های مختلف می‌شود. از آنجا که AFLGo و WindRanger قادر به پیش‌بینی انتقال‌های مسیر و میزان پاداش نیستند، نمی‌توانند از انجام اقداماتی که منجر به انتقال‌های کم‌پاداش می‌شوند اجتناب کنند. در نتیجه، بیشتر ورودی‌های جدید تولیدشده توسط AFLGo و WindRanger نتوانستند خطوط ۱۱–۱۲ و ۱۸ را پوشش دهند و بنابراین در رسیدن به نقطهٔ هدف (خط ۲۴) ناکام ماندند.

برای شناسایی چنین ارتباط‌هایی، در طول فرایند آزمون، ارتباط میان اقدام‌ها (بایت‌های جهش‌یافته یا mutation bytes) و انتقال‌های مسیر (path transitions) ثبت می‌شود. با جست‌وجوی مسیرهایی که شامل مکان‌های مشخصی از کد هستند، می‌توان اقدام‌های متناظر با آن‌ها را به دست آورد و در نتیجه، رابطهٔ متناظر میان مکان‌های کد و اقدام‌ها مشخص می‌شود.

به‌طور مشخص، DeepGo می‌تواند نگاشت‌های میان (مسیر، اقدام) یا (path, action) و (مسیر بعدی، پاداش) یا (next path, reward) را ثبت کند تا از آن‌ها برای آموزش VEE استفاده شود. اگر انتقال‌های مسیری که در اثر تغییر یک بایت خاص ایجاد می‌شوند بتوانند DeepGo را به پوشش مکان‌های مهم کد هدایت کنند (برای مثال، بخش‌هایی از کد که به نقاط هدف نزدیک‌تر هستند)، آن انتقال مسیر و اقدام متناظر با آن (یعنی بایت‌های جهش‌یافته) پاداش بالایی دریافت خواهند کرد.

با بررسی پاداش انتقال‌های مسیر مختلف، می‌توان تعیین کرد که برای رسیدن به مکان‌های مهم کد، کدام بایت‌ها باید دچار جهش (mutation) شوند.

برای اثبات تحلیل فوق، ما پاداش مورد انتظار دنباله‌ای برای انجام همهٔ اقدام‌ها (یعنی جهش دادن تمام بایت‌ها) و همچنین احتمال انتخاب هر اقدام توسط RLF را پس از رسیدن DeepGo به خط ۱۲ محاسبه کردیم و نتایج را در شکل ۸ ارائه دادیم.

در شکل ۸، محور افقی (x) نشان‌دهندهٔ کدگذاری اقدام‌ها و محور عمودی (y) بیانگر مقدار نرمال‌سازی‌شدهٔ پاداش‌های مورد انتظار دنباله‌ای و احتمال‌های انتخاب اقدام‌ها است. خطوط ۲، ۹–۱۰ و ۱۶ به‌ترتیب نمایانگر سه اقدام با کدگذاری‌های 0.226، 0.41 و 0.618 هستند که بایت‌های مرتبط با شرط‌های محدودیتی در خطوط ۲، ۹–۱۰ و ۱۶ را تغییر می‌دهند.

خط آبی توزیع پاداش‌های مورد انتظار دنباله‌ای اقدام‌ها را نشان می‌دهد و خط قرمز توزیع احتمال گاوسی مدل RLF برای انتخاب اقدام‌ها را نمایش می‌دهد. همان‌طور که خط آبی نشان می‌دهد، مقادیر نرمال‌شدهٔ پاداش مورد انتظار برای این سه اقدام به‌ترتیب برابر با 0.232، 0.994 و 0.061 است. این بدان معناست که اگر فازر (fuzzer) اقدام‌های مربوط به خطوط ۲ و ۹–۱۰ را انجام دهد، انتقال‌های مسیر حاصل باعث می‌شود فازر از نقطهٔ هدف دورتر شود.

در مورد خط قرمز، احتمال‌های گاوسی برای خطوط ۲ و 9-10 تقریباً برابر صفر است، در حالی که این مقدار برای خط ۱۶ نزدیک به ۱ است. بنابراین، هنگام انتخاب اقدام‌ها با استفاده از نمونه‌برداری گاوسی، مدل RLF تمایل دارد اقدام‌های نزدیک به خط ۱۶ را انتخاب کند، نه اقدام‌های خطوط 2 و 9-10.

به این ترتیب، DeepGo با احتمال بالا اقدام‌هایی را انتخاب می‌کند که دارای پاداش مورد انتظار دنباله‌ای بالاتری هستند؛ موضوعی که به اجتناب از انتقال‌های مسیر کم‌پاداش — که فازر را از نقطهٔ هدف دور می‌کنند — کمک می‌کند.

7. بحث

7.1 تنظیم اَبَرپارامترها (Hyperparameters)

اَبَرپارامتر یا هایپرپارامترهای γ و k هر دو بر مقدار TTR در DeepGo تأثیر می‌گذارند. نخست، در فرایند آموزش مدل RLF، هایپرپارامتر γ برای ایجاد تعادل میان تأثیر پاداش‌های فعلی و پاداش‌های آینده بر مقدار انتقال (transition value) و پاداش‌های مورد انتظار دنباله‌ایِ حالت جاری و اقدام‌های آن استفاده می‌شود. اگر فقط بر پاداش‌های فعلی تمرکز شود، مدل RLF ممکن است در بهینه‌های محلی (local optima) گرفتار شود. در مقابل، اگر پاداش‌های آینده بیش از حد مورد تأکید قرار گیرند، ممکن است انتقال‌های مسیر با پاداش کم برای مسیر فعلی ایجاد شوند و در نتیجه کارایی هدایت ‌شده (directed efficiency) کاهش یابد. بنابراین، مقداردهی ابرپارامتر γ بر مقادیر Q، مقادیر V و سیاست (policy) مدل RLF اثر می‌گذارد و در نهایت TTR در DeepGo را تحت تأثیر قرار می‌دهد.

دوم، در راهبرد گسترش شاخه‌ای k-مرحله‌ای (k-step branch rollout)، هایپرپارامتر k برای تولید دنباله‌ای از انتقال‌های مسیر با طول k استفاده می‌شود. با افزایش مقدار k، مدل VEE می‌تواند انتقال‌های مسیر بیشتری را پیش‌بینی کند و این موضوع به RLF امکان می‌دهد در طراحی سیاست‌ها آینده‌نگری بیشتری داشته باشد. با این حال، مقدار بیش‌ازحد بزرگ برای k ممکن است دقت پیش‌بینی انتقال‌های مسیر و پاداش‌ها توسط VEE را کاهش دهد و در نتیجه سیاست RLF را به سمت دنباله‌های انتقال مسیر با پاداش پایین هدایت کند.

در نتیجه، تنظیم هایپرپارامترk هم بر دقت پیش‌بینی VEE و هم بر میزان آینده‌نگری سیاست RLF اثر گذاشته و در نهایت بر مقدار TTR در DeepGo تأثیر می‌گذارد.

برای مشاهدهٔ تأثیر تغییر مقادیر γ و k بر عملکرد DeepGo، آزمایش‌هایی انجام دادیم که در آن مقدار γ برابر با 0.9، 0.8، 0.7، 0.6، 0.5، 0.4، 0.3، 0.2 و 0.1 و مقدار k برابر با 1 تا 9 تنظیم شد. سپس DeepGo با پیکربندی‌های مختلف هایپرپارامترها برای آزمون ۲۰ برنامه از UniBench مورد استفاده قرار گرفت و میانگین مقدار TTR برای هر مورد آزمایشی ثبت شد.

برای نمایش بصری تأثیر تنظیمات γ و k بر TTR در DeepGo، از یک نمودار سه‌بعدی استفاده کردیم که تغییرات TTR را با تغییر این دو پارامتر نشان می‌دهد. بر اساس شکل ۹، می‌توان سه نتیجهٔ اصلی گرفت:

کمترین مقدار TTR زمانی به دست می‌آید که γ برابر با 0.8 و k برابر با 4 تنظیم شود؛ این نقطه در شکل با یک نقطهٔ قرمز مشخص شده است.
اگر مقدار γ در بازه [0.5, 0.9] و مقدار k در بازه [3, 5] باشد، تنظیم این دو پارامتر تأثیر نسبتاً کمی بر TTR دارد (به‌طوری‌که TTR در بازه [648, 688] تغییر می‌کند).
مقدار TTR زمانی که γ بزرگ‌تر از 0.5 است، کمتر (بهتر) از حالتی است که γ کوچک‌تر از 0.5 باشد؛ همچنین وقتی k کمتر از 5 است، TTR نسبت به زمانی که k بزرگ‌تر از 5 باشد، کمتر است.

این نتایج نشان می‌دهد که با توجه به اطلاعات آماری فرایند fuzzing (که در آن طول دنباله‌های انتقال مسیر معمولاً کمتر از ۲۰ است) باید توجه بیشتری به تأثیر پاداش‌های فعلی مسیر داشت. علاوه بر این، مقدار k باید به‌گونه‌ای تنظیم شود که میان دقت پیش‌بینی و توان آینده‌نگری تعادل مناسبی برقرار گردد.

7.2 انتخاب اهداف (Selection of targets)

هنگام انتخاب اهداف برای ارزیابی، ابزار ++AFL را به مدت ۴۸ ساعت اجرا کردیم؛ زیرا معتقدیم تکنیک‌های فازینگ هدایت ‌شده (DGF) می‌توانند نسبت به تکنیک‌های فازینگ کلاسیک (CGF) سریع‌تر به اهداف از پیش تعیین‌شده برسند [23]، [39]، [86]، [88]. بنابراین، حتی اگر برخی اهداف توسط CGF در بازه‌ای بیشتر از ۲۴ ساعت اما کمتر از ۴۸ ساعت پوشش داده شوند، احتمال زیادی وجود دارد که روش‌های DGF بتوانند همان اهداف را در کمتر از ۲۴ ساعت پوشش دهند.

برای نمونه، در ارزیابی‌های ما، از میان ۵۱ هدفی که رسیدن به آن‌ها برای ++AFL بیش از ۲۴ ساعت زمان برد، تعداد ۴۵ هدف توسط یک یا چند فازر هدایت‌شده در کمتر از ۲۴ ساعت پوشش داده شدند.

ما از ++AFL به‌جای نسخهٔ «معمولی» AFL برای تعیین اهداف استفاده کردیم، زیرا ++AFL نتایج جامع‌تری ارائه می‌دهد و امکان ثبت دقیق زمان موردنیاز برای رسیدن روش‌های CGF به اهداف مختلف را فراهم می‌کند. با اطلاعاتی که ++AFL فراهم می‌کند، می‌توانیم مکان‌های کد و هزینهٔ زمانی لازم برای رسیدن به آن‌ها را بازتولید کنیم؛ موضوعی که برای انتخاب اهداف ضروری است. در مقابل، AFL چنین اطلاعات دقیقی را ارائه نمی‌دهد.

8. کارهای مرتبط (RELATED WORK)

8.1 اجرای نمادین هدایت ‌شده (Directed Symbolic Execution — DSE)

اجرای نمادین هدایت ‌شده (DSE) عمدتاً برای رسیدن به نقاط هدف به موتورهای اجرای نمادین مانند KLEE [13] ،KATCH [52] و BugRedux [5] متکی است. با استفاده از تحلیل برنامه و حل محدودیت‌ها (constraint solving)، روش DSE می‌تواند ورودی‌هایی تولید کند که به‌طور مؤثر از میان محدودیت‌های مسیر عبور کرده و به نقاط هدف برسند.

با وجود اینکه برخی پژوهش‌های پیشرفته مانند symcc [63]، symqemu [62] و JigSaw [16] برای بهبود اجرای نمادین پیشنهاد شده‌اند، همچنان تحلیل سنگین برنامه، مشکل انفجار مسیرها (path-explosion) و هزینهٔ بالای حل محدودیت‌ها باعث می‌شوند مقیاس‌پذیری DSE محدود باقی بماند.

8.2 فازینگ جعبه خاکستری هدایت ‌شده (Directed Grey-box Fuzzing — DGF)

فازینگ خاکستری هدایت ‌شده (DGF)، فاصله میان بذرها (seed) و اهداف از پیش تعیین‌شده را محاسبه می‌کند تا seedهای نزدیک‌تر به اهداف در اولویت قرار گیرند. به این ترتیب، مسئلهٔ دستیابی به هدف به‌صورت یک مسئله بهینه‌سازی تعریف می‌شود که هدف آن کمینه کردن فاصله میان seedها و اهدافشان است.

بر اساس ایدهٔ AFLGo، ابزارهایی مانند Hawkeye [15]، LOLLY [46]، Berry [44]، UAFL [78] و CAFL [40] معیارهای جدیدی مانند شباهت مسیر (trace similarity) و شباهت دنباله‌ای (sequence similarity) پیشنهاد دادند تا قابلیت هدایت فازر افزایش یافته و آسیب‌پذیری‌های سخت برای آشکارسازی شناسایی شوند. ابزار FuzzGuard [93] seedهای غیرقابل دسترسی را فیلتر می‌کند و BEACON [31] مسیرهای غیرممکن را هرس می‌کند؛ هر دو روش، کارآمدی DGF را بهبود می‌دهند.

M C2 سپس [67] DGF را به‌صورت یک مسئله جست‌وجوی راهنمای اوراکل (oracle-guided search) مدل‌سازی می‌کند تا ورودی‌ای پیدا شود که به هدف برسد و بدین ترتیب سرعت دستیابی به اهداف افزایش یابد. FISHFUZZ [92] امکان می‌دهد فازرها بین هزاران هدف به‌طور روان مقیاس‌پذیر عمل کنند و seedها را به مکان‌های مهم هدایت کنند تا تست برنامه جامع‌تر شود. ابزارهایی مانند SemFuzz [22], [85] از اطلاعات جریان داده و معنایی برای تولید ورودی‌های معتبر استفاده می‌کنند.

ابزارهایی مانند Parmesan [58]، V-Fuzz [58] و SAVIOR [19] از sanitizerها (مانند ASAN [66] و UBSan [47]) برای علامت‌گذاری کدهای احتمالی دارای باگ به‌عنوان نقاط هدف استفاده کرده و DGF را برای تست این نقاط هدایت می‌کنند. Hydiff [38]، SAVIOR [19] و Badger [55] seedهایی را که ممکن است باعث باگ‌های خاص شوند، اولویت می‌دهند و سپس اجرای نمادین (symbolic execution) بذرهای (seed) قابل دسترسی از چندین نقطه هدف را در اولویت قرار می‌دهند. ابزارهایی مانند DrillerGO [36] و Berry [44] دقت DSE و مقیاس‌پذیری DGF را ترکیب می‌کنند تا نقاط ضعف هرکدام را کاهش دهند.

با این حال، DGF هنوز از مشکل عبور از محدودیت‌های مسیر که برآورده کردن آنها دشوار است، رنج می‌برد. DeepGo با پیش‌بینی اطلاعات حیاتی اجرای برنامه و تعیین مسیر بهینه، با ترکیب اطلاعات تاریخی اجرای برنامه و اطلاعات پیش‌بینی‌شدهٔ آینده، می‌تواند مسیر بهینه و عملیاتی برای رسیدن به نقطه هدف تولید کند. با اجتناب از مسیرهای غیرممکن و سخت برای اجرا، فازر می‌تواند به نقاط هدف با دقت و کارایی بالاتر برسد.

8.3 فازینگ جعبه خاکستری مبتنی بر هوش مصنوعی (AI-Based Grey-box Fuzzing)

فازینگ جعبه خاکستری مبتنی بر هوش مصنوعی در کارهای پیشرفتهٔ قبلی [26]، [69]، [73]، [76]، [79]، [93] از تکنیک‌های هوش مصنوعی برای تقویت فازینگ جعبه خاکستری استفاده شده است. در میان این کارها، NEUZZ [69] و MTFUZZ [68] از روش‌های مبتنی بر گرادیان نزولی (gradient-descent) به منظور افزایش کارایی فازینگ هدایت ‌شده توسط پوشش (coverage-guided grey-box fuzzing) استفاده می‌کنند و رفتار شاخه‌ای گسسته برنامه تحت آزمایش (PUT) را تقریب می‌زنند.

ابزار AthenaTest [76] با استفاده از شبکه‌های محلی مبتنی بر ترنسفورمر (local transformer-based networks) ویژگی‌های بذرها (seed) را از مجموعه داده استخراج کرده و تست کیس‌ها را تولید می‌کند. ابزارهای DYNFuzz [91] و FuzzGuard [93] مدل‌هایی مبتنی بر شبکه‌های عصبی می‌سازند تا پیش‌بینی کنند که آیا بذرها (seed) به نقاط هدف دسترسی دارند یا خیر و بذرهای (seed) غیرقابل دسترسی را فیلتر می‌کنند تا هدایت ‌شدگی فازر افزایش یابد.

با این حال، تکنیک‌های موجود فازینگ خاکستری مبتنی بر هوش مصنوعی تنها بر انتخاب بایت‌های جهش‌یافته یا بذرها (seed) بهینه‌سازی انجام می‌دهند و نمی‌توانند تمام استراتژی‌های فازینگ را به‌طور جامع بهینه کنند. این محدودیت باعث می‌شود فازر در تولید مسیرهای بهینه برای رسیدن به نقاط هدف کمتر هوشمند عمل کند.

9. نتیجه‌گیری

در این مقاله، ما DeepGo را معرفی کردیم؛ یک فازر جعبه خاکستری هدایت ‌شده پیش‌بینی‌کننده (predictive directed greybox fuzzer) که می‌تواند با ترکیب اطلاعات تاریخی و پیش‌بینی‌شده، مسیر بهینه‌ای برای رسیدن به نقطه هدف در DGF فراهم کند.

DeepGo محیط ترکیبی مجازی (Virtual Ensemble Environment — VEE) را ایجاد می‌کند که با استفاده از شبکه‌های عصبی عمیق (DNNs) مدل انتقال مسیر را شبیه‌سازی کرده و پاداش‌های احتمالی برای انتقال‌های مسیر بالقوه را پیش‌بینی می‌کند. DeepGo با استفاده از مدل RLF، انتقال‌های مسیر تاریخی و پیش‌بینی‌شده را ترکیب کرده و دنبالهٔ انتقال مسیر با بالاترین پاداش دنباله‌ای را برای تولید مسیرهای بهینه تعیین می‌کند. DeepGo بر اساس الگوریتم MPSO، گروه اقدام‌ها (Action) را بهینه کرده و دنبالهٔ انتقال مسیر با پاداش بالا را اجرا می‌کند تا مسیر بهینه تحقق یابد.

DeepGo بر روی ۱۰۰ نقطه هدف در ۲۵ برنامه واقعی از ۲ مجموعه داده ارزیابی شد. نتایج آزمایش‌ها نشان می‌دهد که DeepGo در رسیدن به نقاط هدف و افشای آسیب‌پذیری‌های شناخته ‌شده از فازرهای هدایت ‌شده پیشرفته مانند AFLGo، BEACON، WindRanger و ParmeSan بهتر عمل می‌کند. علاوه بر این، DeepGo دقت بالایی در پیش‌بینی انتقال‌های مسیر که هنوز طی نشده‌اند نیز نشان می‌دهد.

تقدیر و سپاس‌گزاری (ACKNOWLEDGMENT)

این پژوهش به‌طور جزئی توسط برنامهٔ ملی تحقیق و توسعه کلیدی چین تحت گرنت شماره 2021YFB0300101، پروژه‌های تحقیقاتی دانشگاه ملی فناوری دفاع (ZK20-17, ZK20-09, ZK23-14)، بنیاد ملی علوم طبیعی چین (62272472, 61902405, U22B2005, 61972412, 62306328)، بنیاد علوم طبیعی استان Hunan (2021JJ40692) و برنامهٔ ملی پرسنل سطح بالا برای فناوری دفاع (2017-JCJQ-ZQ-013) حمایت شده است.

منابع

				
					[1] (2023) Gnu binutils. [Online]. Available: https://www.gnu.org/software/binutils/.. 
[2] (2023) Undefined behavior sanitizer - clang 9 documentation. http://clang.llvm.org/docs/UndefinedBehaviorSanitizer.
[3] C. Aschermann, S. Schumilo, T. Blazytko, R. Gawlik, and T. Holz, “REDQUEEN: fuzzing with input-to-state correspondence,” in 26th Annual Network and Distributed System Security Symposium, NDSS 2019, San Diego, California, USA, February 24-27, 2019. The Internet Society, 2019. [Online]. Available: https://www.ndss-symposium.org/ndss-paper/redqueen-fuzzing-with-input-to-state-correspondence/
[4] P. Auer, N. Cesa-Bianchi, Y. Freund, and R. E. Schapire, “The non-stochastic multiarmed bandit problem,” SIAM Journal on Computing, vol. 32, no. 1, pp. 48–77, 2002.
[5] P. Auer, N. Cesa-Bianchi, Y. Freund, and R. E. Schapire, “Gambling in a rigged casino: The adversarial multi-armed bandit problem,” Electron. Colloquium Comput. Complex., no. 68, 2000.
[6] L. A. Baxter, “Markov decision processes: Discrete stochastic dynamic programming,” Technometrics, vol. 37, no. 3, pp. 353–353, 1995.
[7] R. Bellman, “A markovian decision process,” Indiana University Mathematics Journal, vol. 6, no. 4, p. 15, 1957.
[8] A. A. S. W. Blair, W. Mambretti and M. Egele, “Hotfuzz: Discovering algorithmic denial-of-service vulnerabilities through guided microfuzzing,” Network and Distributed System Security Symposium, 2020.
[9] M. BoHme, V. T. Pham, M. D. Nguyen, and A. Roychoudhury, “Directed greybox fuzzing,” in Acm Sigsac Conference on Computer & Communications Security, 2017, pp. 2329–2344. 
[10] M. B¨ohme, V. Pham, and A. Roychoudhury, “Coverage-based greybox fuzzing as markov chain,” in Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, Vienna, Austria, October 24-28, 2016. ACM, 2016, pp. 1032–1043.
[11] S. Bubeck and N. Cesa-Bianchi, “Regret analysis of stochastic and nonstochastic multi-armed bandit problems,” Found. Trends Mach. Learn., vol. 5, no. 1, pp. 1–122, 2012. [Online]. Available: https://doi.org/10.1561/2200000024
[12] M. B¨ohme. (2023) Directed greybox fuzzing with afl. https://github.com/ aflgo/aflgo.
[13] C. Cadar, D. Dunbar, and D. R. Engler, “KLEE: unassisted and automatic generation of high-coverage tests for complex systems programs,” in 8th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2008, December 8-10, 2008, San Diego, California, USA, Proceedings. USENIX Association, 2008, pp. 209–224. 
[14] H. Chen, S. Guo, Y. Xue, Y. Sui, C. Zhang, Y. Li, H. Wang, and Y. Liu, “MUZZ: Thread-aware grey-box fuzzing for effective bug hunting in multithreaded programs,” in 29th USENIX Security Symposium (USENIX Security 20). USENIX Association, Aug. 2020, pp. 2325– 2342.
[15] H. Chen, Y. Xue, Y. Li, B. Chen, X. Xie, X. Wu, and Y. Liu, “Hawkeye: Towards a desired directed grey-box fuzzer,” in Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security, CCS 2018, Toronto, ON, Canada, October 15-19, 2018. ACM, 2018, pp. 2095–2108.
[16] J. Chen, J. Wang, C. Song, , and H. Yin, “Jigsaw: Efficient and scalable path constraints fuzzing,” in 43rd IEEE Symposium on Security and Privacy (Oakland’22), May 2022.
[17] P. Chen and H. Chen, “Angora: Efficient fuzzing by principled search,” in 2018 IEEE Symposium on Security and Privacy, SP 2018, Proceedings, 21-23 May 2018, San Francisco, California, USA. IEEE Computer Society, 2018, pp. 711–725. [Online]. Available: https://doi.org/10.1109/SP.2018.00046
[18] P. Chen, J. Liu, and H. Chen, “Matryoshka: Fuzzing deeply nested branches,” in Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security, CCS 2019, London, UK, November 11-15, 2019. ACM, 2019, pp. 499–513.
[19] Y. Chen, P. Li, J. Xu, S. Guo, R. Zhou, Y. Zhang, T. Wei, and L. Lu, “SAVIOR: towards bug-driven hybrid testing,” in 2020 IEEE Symposium on Security and Privacy, SP 2020, San Francisco, CA, USA, May 18-21, 2020. IEEE, 2020, pp. 1580–1596.
[20] M. Cho, S. Kim, and T. Kwon, “Intriguer: Field-level constraint solving for hybrid fuzzing,” in Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security, CCS 2019, London, UK, November 11-15, 2019, L. Cavallaro, J. Kinder, X. Wang, and J. Katz, Eds. ACM, 2019, pp. 515–530. [Online]. Available: https://doi.org/10.1145/3319535.3354249 
[21] K. Chua, R. Calandra, R. McAllister, and S. Levine, “Deep reinforcement learning in a handful of trials using probabilistic dynamics models,” in Advances in Neural Information Processing Systems, vol. 31, 2018.
[22] Z. Du, Y. Li, Y. Liu, and B. Mao, “Windranger: A directed greybox fuzzer driven by deviationbasic blocks,” in ICSE ’22: 44st International Conference on Software Engineering. ACM, 2022.
[23] A. Fioraldi, D. Maier, H. Eißfeldt, and M. Heuse, “AFL++ : Combining incremental steps of fuzzing research,” in 14th USENIX Workshop on Offensive Technologies (WOOT 20). USENIX Association, Aug. 2020.
[24] S. Gan, C. Zhang, P. Chen, B. Zhao, X. Qin, D. Wu, and Z. Chen, “GREYONE: Data flow sensitive fuzzing,” in 29th USENIX Security Symposium (USENIX Security 20). USENIX Association, Aug. 2020, pp. 2577–2594. [Online]. Available: https://www.usenix.org/conference/usenixsecurity20/presentation/gan
[25] V. Ganesh, T. Leek, and M. Rinard, “Taint-based directed whitebox fuzzing,” in 2009 IEEE 31st International Conference on Software Engineering, 2009, pp. 474–484.
[26] P. Godefroid, H. Peleg, and R. Singh, “Learn&fuzz: Machine learning for input fuzzing,” IEEE Computer Society, 2017.
[27] [Google. (2023) Ffmpeg and a thousand fixes. https://security.googleblog.com/ 2014/01/ffmpeg-and-thousand-fixes.html.
[28] T. Haarnoja, A. Zhou, P. Abbeel, and S. Levine, “Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor,” in Proceedings of the 35th International Conference on Machine Learning, 2018.
[29] H. v. Hasselt, A. Guez, and D. Silver, “Deep reinforcement learning with double q-learning,” in Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, ser. AAAI’16. AAAI Press, 2016, p. 2094–2100.
[30] L. Hongliang, Z. Yini, Y. Yue, X. Zhuosi, and J. Lin, “Sequence coverage directed greybox fuzzing,” in 2019 IEEE/ACM 27th International Conference on Program Comprehension (ICPC), 2019.
[31] H. Huang, Y. Guo, Q. Shi, P. Yao, R. Wu, and C. Zhang, “Beacon: Directed grey-box fuzzing with provable path pruning,” in The 43rd IEEE Symposium on Security and Privacy(S&P’22), May 2022.
[32] M. Janner, J. Fu, M. Zhang, and S. Levine, “When to trust your model: Model-based policy optimization,” in Advances in Neural Information Processing Systems, 2019.
[33] S. Jian, L. Cao, G. Pang, L. Kai, and G. Hang, “Embedding-based representation of categorical data by hierarchical value coupling learning,” in International Joint Conference on Artificial Intelligence, 2017.
[34] J. Kennedy and R. Eberhart, “Particle swarm optimization,” in Icnn95- international Conference on Neural Networks, 1995.
[35] J. Kim and J. Yun, “Poster: Directed hybrid fuzzing on binary code,” in the 2019 ACM SIGSAC Conference, 2019.
[36] ——, “Poster: Directed hybrid fuzzing on binary code,” in the 2019 ACM SIGSAC Conference, 2019.
[37] I. A. Kunin, “Nonstationary processes,” Springer Berlin Heidelberg, 1982.
[38] T. Lattimore, “Regret analysis of the finite-horizon gittins index strategy for multi-armed bandits,” in Proceedings of the 29th Conference on Learning Theory, COLT 2016, New York, USA, June 23-26, 2016, ser. JMLR Workshop and Conference Proceedings, V. Feldman, A. Rakhlin, and O. Shamir, Eds., vol. 49. JMLR.org, 2016, pp. 1214–1245.
[39] lcamtuf. (2023) American fuzzy lop (afl) fuzzer. https://lcamtuf.coredump.cx/ afl/.
[40] G. Lee, W. Shim, and B. Lee, “Constraint-guided directed greybox fuzzing,” in 30th USENIX Security Symposium (USENIX Security 21). USENIX Association, Aug. 2021, pp. 3559–3576. [Online]. Available: https://www.usenix.org/conference/usenixsecurity21/presentation/lee-gwangmu 
[41] C. Lemieux and K. Sen, “Fairfuzz: a targeted mutation strategy for increasing greybox fuzz testing coverage,” in Proceedings of the 33rd ACM/IEEE International Conference on Automated Software Engineering, ASE 2018, Montpellier, France, September 3-7, 2018. ACM, 2018, pp. 475–485. [Online]. Available: https://doi.org/10.1145/3238147.3238176
[42] X. Li, K. Wang, L. Liu, J. Xin, H. Yang, and C. Gao, “Application of the entropy weight and topsis method in safety evaluation of coal mines,” Procedia Engineering, vol. 26, pp. 2085–2091, 2011, iSMSSE2011. [Online]. Available: https://www.sciencedirect. com/science/article/pii/S1877705811052532
[43] Y. Li, S. Ji, Y. Chen, S. Liang, W. Lee, Y. Chen, C. Lyu, C. Wu, R. Beyah, P. Cheng, K. Lu, and T. Wang, “UNIFUZZ: A holistic and pragmatic metrics-driven platform for evaluating fuzzers,” in 30th USENIX Security Symposium, USENIX Security 2021, August 11-13, 2021. USENIX Association, 2021, pp. 2777–2794. [Online]. Available: https://www.usenix.org/conference/usenixsecurity21/presentation/li-yuwei
[44] H. Liang, L. Jiang, L. Ai, and J. Wei, “Sequence directed hybrid fuzzing,” in 27th IEEE International Conference on Software Analysis, Evolution and Reengineering, SANER 2020, London, ON, Canada, February 18-21, 2020. IEEE, 2020, pp. 127–137. [Online]. Available: https://doi.org/10.1109/SANER48275.2020.9054807
[45] H. Liang, Y. Zhang, Y. Yu, Z. Xie, and L. Jiang, “Sequence coverage directed greybox fuzzing,” ser. ICPC ’19. IEEE Press, 2019. [Online]. Available: https://doi.org/10.1109/ICPC.2019.00044
[46] ——, “Sequence coverage directed greybox fuzzing,” in 2019 IEEE/ACM 27th International Conference on Program Comprehension (ICPC), 2019, pp. 249–259. 
[47] LLVM/Clang. Clang 9 documentation c. undefined behavior sanitizer. http://clang.llvm.org/docs/UndefinedBehaviorSanitizer.html. 2023. 
[48] C. Lyu, S. Ji, C. Zhang, Y. Li, W. Lee, Y. Song, and R. A. Beyah, “Mopt: optimized mutation scheduling for fuzzers,” in USENIX Security Symposium, 2019.
[49] K. K. Ma, Y. P. Khoo, J. S. Foster, and M. Hicks, “Directed symbolic execution,” in Static Analysis - 18th International Symposium, SAS 2011, Venice, Italy, September 14-16, 2011. Proceedings, 2011.
[50] A. Mahendran and A. Vedaldi, “Understanding deep image representations by inverting them,” IEEE, 2015.
[51] P. D. Marinescu and C. Cadar, “KATCH: high-coverage testing of software patches,” in Joint Meeting of the European Software Engineering Conference and the ACM SIGSOFT Symposium on the Foundations of Software Engineering, ESEC/FSE’13, Saint Petersburg, Russian Federation, August 18-26, 2013. ACM, 2013, pp. 235–245. [Online]. Available: https://doi.org/10.1145/2491411.2491438 
[52] ——, “Katch: High-coverage testing of software patches,” in Proceedings of the 2013 9th Joint Meeting on Foundations of Software Engineering, ser. ESEC/FSE 2013. New York, NY, USA: Association for Computing Machinery, 2013, p. 235–245.
[53] V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra, and M. Riedmiller, “Playing atari with deep reinforcement learning,” 2013, nIPS Deep Learning Workshop 2013. 
[54] M. Nguyen, S. Bardin, R. Bonichon, R. Groz, and M. Lemerre, “Binary-level directed fuzzing for use-after-free vulnerabilities,” in 23rd International Symposium on Research in Attacks, Intrusions and Defenses, RAID 2020, San Sebastian, Spain, October 14-15, 2020. USENIX Association, 2020, pp. 47–62. [Online]. Available: https://www.usenix.org/conference/raid2020/presentation/nguyen
[55] Y. Noller, R. Kersten, and C. S. Pasareanu, “Badger: Complexity analysis with fuzzing and symbolic execution,” in Software Engineering and Software Management, SE/SWM 2019, Stuttgart, Germany, February 18-22, 2019, ser. LNI, S. Becker, I. Bogicevic, G. Herzwurm, and S. Wagner, Eds., vol. P-292. GI, 2019, pp. 65–66. [Online]. Available: https://doi.org/10.18420/se2019-16
[56] Y. Noller, C. S. Pasareanu, M. B¨ohme, Y. Sun, H. L. Nguyen, and L. Grunske, “Hydiff: hybrid differential software analysis,” in ICSE ’20: 42nd International Conference on Software Engineering, Seoul, South Korea, 27 June - 19 July, 2020, G. Rothermel and D. Bae, Eds. ACM, 2020, pp. 1273–1285. [Online]. Available:https://doi.org/10.1145/3377811.3380363
[57] S. ¨Osterlund, K. Razavi, H. Bos, and C. Giuffrida, “ParmeSan:Sanitizer-guided greybox fuzzing,” in 29th USENIX Security Symposium (USENIX Security 20). USENIX Association, 2020, pp.2289–2306. [Online]. Available: https://www.usenix.org/conference/ usenixsecurity20/presentation/osterlund
[58] ——, “ParmeSan: Sanitizer-guided greybox fuzzing,” in 29th USENIX Security Symposium (USENIX Security 20). USENIX Association, Aug. 2020, pp. 2289–2306. [Online]. Available: https://www.usenix. org/conference/usenixsecurity20/presentation/osterlund 
[59] J. Peng, F. Li, B. Liu, L. Xu, B. Liu, K. Chen, and W. Huo, “1dvul: Discovering 1-day vulnerabilities through binary patches,” in 49th Annual IEEE/IFIP International Conference on Dependable Systems and Networks, DSN 2019, Portland, OR, USA, June 24-27, 2019. IEEE, 2019, pp. 605–616. [Online]. Available:https://doi.org/10.1109/DSN.2019.00066
[60] ——, “1dvul: Discovering 1-day vulnerabilities through binary patches,” in 49th Annual IEEE/IFIP International Conference on Dependable Systems and Networks, DSN 2019, Portland, OR, USA, June 24-27, 2019. IEEE, 2019, pp. 605–616. [Online]. Available: https://doi.org/10.1109/DSN.2019.00066
[61] R. L. PLACKETT, “Studies in the history of probability and statistics: Vii. the principle of the arithmetic mean,” Biometrika, vol. 45, pp. 130–135, 1958. [Online]. Available: https://doi.org/10.1093/biomet/45. 1-2.130
[62] S. Poeplau and A. elien Francillon, “Symqemu: Compilation-based symbolic execution for binaries,” in 28th Annual Network and Distributed System Security Symposium, NDSS 2021, virtually, February 21-25, 2021. The Internet Society, 2021. [Online]. Available: https://www.ndss-symposium.org/ndss-paper/symqemu-compilation-based-symbolic-execution-for-binaries/
[63] S. Poeplau and A. Francillon, “Symbolic execution with symcc: Don’t interpret, compile!” in 29th USENIX Security Symposium, USENIX Security 2020, August 12-14, 2020, S. Capkun and F. Roesner, Eds. USENIX Association, 2020, pp. 181–198. [Online]. Available: https://www.usenix.org/conference/usenixsecurity20/presentation/poeplau
[64] M. Rajpal, W. Blum, and R. Singh, “Not all bytes are equal: Neural byte sieve for fuzzing,” 2017.
[65] T. Schaul, J. Quan, I. Antonoglou, and D. Silver, “Prioritized experience replay,” Computer Science, 2015.
[66] K. Serebryany, D. Bruening, A. Potapenko, and D. Vyukov, “AddressSanitizer: A fast address sanity checker,” in 2012 USENIX Annual Technical Conference (USENIX ATC 12). Boston, MA: USENIX Association, 2012, pp. 309–318. [Online]. Available: https://www.usenix.org/conference/atc12/technical-sessions/presentation/serebryany
[67] A. Shah, D. She, S. Sadhu, K. Singal, P. Coffman, and S. Jana, “Mc2: Rigorous and efficient directed greybox fuzzing,” ser. CCS ’22, Los Angeles, CA, USA, 2022. [Online]. Available: https://doi.org/10.1145/3548606.3560648
[68] D. She, R. Krishna, L. Yan, S. Jana, and B. Ray, “Mtfuzz: fuzzing with a multi-task neural network,” in ESEC/FSE ’20: 28th ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering, Virtual Event, USA, November 8-13, 2020. ACM, 2020, pp. 737–749. [Online]. Available: https://doi.org/10.1145/3368089.3409723
[69] D. She, K. Pei, D. Epstein, J. Yang, B. Ray, and S. Jana, “Neuzz: Efficient fuzzing with neural program smoothing,” in 2019 IEEE Symposium on Security and Privacy (SP), 2019, pp. 803–817.
[70] Y. Shi and R. Eberhart, “A modified particle swarm optimizer,” in 1998 IEEE International Conference on Evolutionary Computation Proceedings. IEEE World Congress on Computational Intelligence (Cat.No.98TH8360), 1998, pp. 69–73. 
[71] Y. Shin and L. Williams, “Can traditional fault prediction models be used for vulnerability prediction?” Empirical Software Engineering, vol. 18, no. 1, pp. 25–59, 2013.
[72] K. Simonyan, A. Vedaldi, and A. Zisserman, “Deep inside convolutional networks: Visualising image classification models and saliency maps,”Computer ence, 2013.
[73] S. Sivakorn, G. Argyros, K. Pei, A. D. Keromytis, and S. Jana, “Hvlearn: Automated black-box analysis of hostname verification in ssl/tls implementations,” in 2017 IEEE Symposium on Security and Privacy (SP), 2017. 
[74] N. Stephens, J. Grosen, C. Salls, A. Dutcher, R. Wang, J. Corbetta, Y. Shoshitaishvili, C. Kruegel, and G. Vigna, “Driller: Augmenting fuzzing through selective symbolic execution,” in 23rd Annual Network and Distributed System Security Symposium, NDSS 2016, San Diego, California, USA, February 21-24, 2016. The Internet Society, 2016. [Online]. Available: http://wp.internetsociety.org/ndss/wp-content/uploads/sites/25/2017/09/driller-augmenting-fuzzing-through-selective-symbolic-execution.pdf 
[75] Y. Sui and J. Xue, “SVF: interprocedural static value-flow analysis in LLVM,” in Proceedings of the 25th International Conference on Compiler Construction, CC 2016, Barcelona, Spain, March 12-18, 2016. ACM, 2016, pp. 265–266. [Online]. Available: https://doi.org/10.1145/2892208.2892235
[76] M. Tufano, D. Drain, A. Svyatkovskiy, S. K. Deng, and N. Sundaresan, “Unit test case generation with transformers and focal context,” arXiv, May 2021.
[77] H. Wang, X. Xie, Y. Li, C. Wen, Y. Li, Y. Liu, S. Qin, H. Chen, and Y. Sui, “Typestate-guided fuzzer for discovering use-after-free vulnerabilities,” in ICSE ’20: 42nd International Conference on Software Engineering, Seoul, South Korea, 27 June - 19 July, 2020. ACM, 2020, pp. 999–1010. [Online]. Available: https://doi.org/10.1145/3377811.3380386
[78] ——, “Typestate-guided fuzzer for discovering use-after-free vulnerabilities,” in ICSE ’20: 42nd International Conference on Software Engineering, Seoul, South Korea, 27 June - 19 July, 2020. ACM, 2020, pp. 999–1010. [Online]. Available: https://doi.org/10.1145/3377811.3380386 
[79] J. Wang, B. Chen, L. Wei, and Y. Liu, “Skyfire: Data-driven seed generation for fuzzing,” in The 38th IEEE Symposium on Security and Privacy(S&P’17). USENIX Association, 2017.
[80] X. Wang, J. Sun, Z. Chen, P. Zhang, J. Wang, and Y. Lin, “Towards optimal concolic testing,” in Proceedings of the 40th International Conference on Software Engineering, ICSE 2018, Gothenburg, Sweden, May 27 - June 03, 2018. ACM, 2018, pp. 291–302. [Online]. Available: https://doi.org/10.1145/3180155.3180177 
[81] Y. Wang, X. Jia, Y. Liu, K. Zeng, and P. Su, “Not all coverage measurements are equal: Fuzzing by coverage accounting for input prioritization,” in Network and Distributed System Security Symposium, 2020.
[82] C. Wen, H. Wang, Y. Li, S. Qin, Y. Liu, Z. Xu, H. Chen, X. Xie, G. Pu, and T. Liu, “Memlock: memory usage guided fuzzing,” in ICSE ’20: 42nd International Conference on Software Engineering, Seoul, South Korea, 27 June - 19 July, 2020. ACM, 2020, pp. 765–777. [Online]. Available: https://doi.org/10.1145/3377811.3380396
[83] M. Wu, L. Jiang, J. Xiang, Y. Huang, H. Cui, L. Zhang, and Y. Zhang, “One fuzzing strategy to rule them all,” in 44th IEEE/ACM 44th International Conference on Software Engineering, ICSE 2022, Pittsburgh, PA, USA, May 25-27, 2022. ACM, 2022, pp. 1634–1645. [Online]. Available: https://doi.org/10.1145/3510003.3510174
[84] Yang, Guowei, Rungta, Neha, Khurshid, Sarfraz, Person, and Suzette, “Directed incremental symbolic execution,” ACM SIGPLAN Notices: A Monthly Publication of the Special Interest Group on Programming Languages, 2011.
[85] W. You, P. Zong, K. Chen, X. Wang, X. Liao, P. Bian, and B. Liang, “Semfuzz: Semantics-based automatic generation of proof-of-concept exploits,” in Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security, CCS 2017, Dallas, TX, USA, October 30 - November 03, 2017. ACM, 2017, pp. 2139–2154.[Online]. Available: https://doi.org/10.1145/3133956.3134085
[86] T. Yue, P. Wang, Y. Tang, E. Wang, B. Yu, K. Lu, and X. Zhou, “EcoFuzz: Adaptive Energy-Saving greybox fuzzing as a variant of the adversarial Multi-Armed bandit,” in 29th USENIX Security Symposium (USENIX Security 20), 2020.
[87] I. Yun, S. Lee, M. Xu, Y. Jang, and T. Kim, “QSYM : A practical concolic execution engine tailored for hybrid fuzzing,” in 27th USENIX Security Symposium, USENIX Security 2018, Baltimore, MD, USA, August 15-17, 2018, W. Enck and A. P. Felt, Eds. USENIX Association, 2018, pp. 745–761. [Online]. Available:https://www.usenix.org/conference/usenixsecurity18/presentation/yun
[88] G. Zhang, P. Wang, T. Yue, X. Kong, S. Huang, X. Zhou, and K. Lu, “Mobfuzz: Adaptive multi-objective optimization in gray-box fuzzing,” 2022. [Online]. Available: https://api.semanticscholar.org/CorpusID:248224859.
[89] L. Zhao, Y. Duan, H. Yin, and J. Xuan, “Send hardest problems my way: Probabilistic path prioritization for hybrid fuzzing,” in 26th Annual Network and Distributed System Security Symposium, NDSS 2019, San Diego, California, USA, February 24-27, 2019. The Internet Society, 2019. [Online]. Available: https://www.ndss-symposium.org/ndss-paper/send-hardest-problems-my-way-probabilistic-path-prioritization-for-hybrid-fuzzing/
[90] Y. Zhao, Y. Li, T. Yang, and H. Xie, “Suzzer: A vulnerability guided fuzzer based on deep learning,” in Information Security and Cryptology - 15th International Conference, Inscrypt 2019, Nanjing, China, December 6-8, 2019, Revised Selected Papers, ser.Lecture Notes in Computer Science, Z. Liu and M. Yung, Eds., vol. 12020. Springer, 2019, pp. 134–153. [Online]. Available: https://doi.org/10.1007/978-3-030-42921-8 8 
[91] L. Zhaoji, W. Tianyuan, Z. Ziqiang, and et al., “Directed grey-box fuzzing technology based on lstm and dynamic strategy,” Computer Engineering and Applications, vol. 58, no. 18, pp. 147–153, 2022.
[92] H. Zheng, J. Zhang, Y. Huang, Z. Ren, H. Wang, and C. Cao, “Fishfuzz: Catch deeper bugs by throwing larger nets,” in 32th USENIX Security Symposium (USENIX Security 23). USENIX Association, Aug. 2023.
[93] P. Zong, T. Lv, D. Wang, Z. Deng, R. Liang, and K. Chen,“FuzzGuard: Filtering out unreachable inputs in directed grey-box fuzzing through deep learning,” in 29th USENIX Security Symposium (USENIX Security 20). USENIX Association, Aug. 2020, pp.2255–2269. [Online]. Available: https://www.usenix.org/conference/usenixsecurity20/presentation/zong

DeepGo: فازینگ جعبه خاکستری پیش‌بینانه و هدایت ‌شده

DeepGo: Predictive Directed Greybox Fuzzing