چکیده
مقاله «BertRLFuzzer: A BERT and Reinforcement Learning Based Fuzzer» یک ابزار نوآورانه برای کشف آسیب پذیریهای امنیتی در برنامههای وب معرفی میکند که براساس ترکیب مدل زبانی BERT و یادگیری تقویتی (RL) طراحی شده است. عملکرد BertRLFuzzer به این صورت است که با دریافت فهرستی از ورودیهای اولیه (seed inputs)، عملیات جهش (mutation) را بر روی آنها انجام میدهد بهگونهای که هم با دستور زبان (grammar) سازگار باشد و هم باعث تحریک حمله شود، تا بردارهای حمله کاندید تولید کند. بینش کلیدی BertRLFuzzer، استفاده ترکیبی از دو مفهوم یادگیری ماشین است. اولی استفاده از یادگیری نیمهنظارتشده همراه با مدلهای زبانی (مانند BERT) است که به BertRLFuzzer امکان میدهد بخشهای مرتبط گرامری برنامه هدف و الگوهای حمله را بیاموزد، بدون اینکه کاربر نیاز داشته باشد آنها را صریحاً مشخص کند. دومی استفاده از یادگیری تقویتی است که مدل BERT را بهعنوان یک عامل (agent) بهکار میگیرد تا فازر را در یادگیری مؤثر عملگرهای جهشِ همراستا با دستور زبان و تحریککننده حمله هدایت کند. حلقه بازخورد هدایتشده توسط RL به BertRLFuzzer اجازه میدهد فضای بردارهای حمله را بهطور خودکار جستجو کند و ضعفهای برنامه هدف را بدون نیاز به ساخت داده برچسبخورده آموزشی، بهرهبرداری (exploit) نماید. افزون بر این، این دو ویژگی در کنار هم باعث میشوند BertRLFuzzer قابل توسعه باشد؛ یعنی کاربر میتواند BertRLFuzzer را بهصورت خودکار (بدون اصلاح صریح فازر یا ارائه دستور زبان) برای انواع مختلف برنامههای هدف و بردارهای حمله توسعه دهد.
محققان به منظور سنجش اثربخشی BertRLFuzzer، آن را در برابر مجموعاً ۱۳ فازر جعبه سیاه و جعبه سفید آزمایش و بررسی کردهاند: ۷ فازر جعبه سیاه مبتنی بر یادگیری ماشین (DeepSQLi, DeepFuzz, DQN fuzzer، نسخههای اصلاحشده DeepXSS, DeepFix, GRU-PPO, Multi-head DQN)، ۳ فازر سازگار با گرامر (BIOFuzz, SQLMap, baseline mutator)، یک فازر جعبه سفید ( Ardilla)، یک تغییردهنده تصادفی و یک فازر تصادفی، بر روی مجموعهای از ۹ وبسایت هدف آزمایش شده است. محققان شاهد بهبود قابل توجهی از نظر زمان تا اولین حمله (۵۴٪ کمتر از نزدیکترین ابزار رقابتی)، زمان برای یافتن تمام آسیبپذیریها (۴۰–۶۰٪ کمتر از نزدیکترین ابزار رقابتی)، و نرخ حمله (۴.۴٪ بردار حمله تولیدشده بیشتر نسبت به نزدیکترین ابزار رقابتی) بودهاند. نتایج آزمایشهای آنها حاکی از آن است که ترکیب مدل BERT و یادگیری مبتنی بر RL، میتواند BertRLFuzzer را به یک فازر مؤثر، تطبیقپذیر، آسان برای استفاده، خودکار و قابل توسعه تبدیل کند.
مقدمه
در چند دهه اخیر، رشد چشمگیری در تعداد و پیچیدگی برنامههای تحت وب مشاهده شده است که در کنار آن، میزان و تنوع آسیب پذیریهای امنیتی نیز بهطور قابلتوجهی افزایش یافته است، از جمله حملات شناختهشدهای نظیر SQL Injection، XSS و CSRF. پژوهشگران در واکنش به این چالش، مجموعهای از ابزارهای فازینگ پیشرفته را توسعه دادهاند که بسته به روش تحلیل، از فازرهای مبتنی بر جهش تصادفی (مانند AFL گوگل)، تا فازرهای جعبهسیاه سازگار با گرامر[1] و حتی فازرهای جعبهسفید مبتنی بر SMT solver ها (مانند Ardilla) را دربرمیگیرند.
یک مسئله رایج برای توسعهدهندگان این است که فازِرها اغلب باید از گرامر یا دستور زبان ورودی آگاه باشند، بهویژه هنگام فازینگ برنامههایی که گرامر ورودیشان پیچیده است. تعریف صریح دستور زبان و بهروزرسانی آن برای هر کلاس جدید از آسیب پذیری، وقتگیر و مستعد خطا میباشد. علاوه بر این، ابزارهای فازر کنونی به سختی میتوانند بدون ایجاد تغییر دستی به انواع جدید آسیب پذیریها گسترش یابند. بهعبارتدیگر، طراحی فازرهای فعلی معمولاً خودکار و قابلگسترش نیست و نیاز به مداخله انسانی دارد.
توسعه فازِرهای آگاه از دستور زبان، فرآیندی زمانبر و پرخطا میباشد؛ زیرا توسعهدهندگان فازِر باید صریحاً دستور زبان ورودیِ برنامه هدف را فراهم کنند و خودِ فازِر را بر اساس آن تغییر یا توسعه دهند. این مسئله زمانی که بخواهند فازِر را برای برنامههای مختلف مجددا هدفگیری کنند، بسیار دشوار خواهد بود.
مشکل دیگری که وجود دارد این است که حتی اگر برای یک برنامه مشخص، فازِرِ آگاه از دستور زبان در اختیار داشته باشیم، ممکن است هرگاه کلاسهای جدیدی از آسیب پذیریها کشف شوند، نیاز به تغییر فازِر نیز پدید آید. برای مثال، فازِری که برای کشف آسیب پذیری SQL Injection در یک برنامه وب طراحی شده باشد، در تشخیص آسیبپذیریهای XSS کارآمد نخواهد بود. به عبارت سادهتر، فازِرهای امروزی بهراحتی قابل توسعه بهمنظور پشتیبانی گرامر-محور از کلاسهای جدیدِ برنامهها و آسیب پذیریها نیستند. به بیان ساده تر ساده، فازرهای امروزی بهگونهای طراحی نشدهاند که بتوان آنها را بهراحتی و بهشکل آگاه از دستور زبان (grammar-aware) برای کلاسهای جدیدی از برنامهها و آسیبپذیریها گسترش داد.
بیان مسئله
بهطور دقیقتر، مسئلهای که در این مقاله به آن پرداخته شده است، ایجاد یک فازر برای برنامههای وب است که بهعنوان ورودی، یک برنامه هدف و مجموعهای از ورودیهای اولیه (seed inputs) را دریافت میکند و بهعنوان خروجی یک عملگر جهش (mutation operator) تولید مینماید که این ورودیها را به بردار حمله برای برنامه مشخص تبدیل میکند — بهصورتی که قابل توسعه، منطبق با دستور زبان (grammar-adherent) و کاملاً خودکار باشد.
در واقع فازر میبایست ویژگیهای زیر را داشته باشد:
- نخست، سیستم باید قابل توسعه باشد؛ یعنی کاربر بتواند آن را با حداقل تلاش انسانی و یا بدون تلاش (مثلاً از طریق یادگیری از دادهها) برای انواع مختلف بردارهای حمله و برنامههای هدف توسعه دهد.
- دوم، باید مطابق با گرامر باشد؛ یعنی رشتههای خروجی تولیدشده توسط فازر باید با دقت بالا مطابق گرامر ورودی برنامه هدف باشند، بدون اینکه از کاربر خواسته شود گرامر ورودی برنامه هدف را ارائه دهد.
- سوم، فازر باید کاملاً خودکار باشد؛ یعنی عملیات جهش جدید را بدون ارائه دادهء برچسبگذاری شده و بدون اینکه انسان کد فازر را تغییر دهد، بیاموزد یا تولید کند (توجه: بهتعریف، فازرهای نگارششده توسط انسان که مطابق گرامر هستند، بهطور خودکار عملیات جهش جدید را نمیآموزند).
- چهارم، فازر باید کارا و مؤثر باشد؛ یعنی زمان تا اولین حمله باید کم باشد (کارایی) و نرخ حمله نسبت به ابزارهای پیشرفته دیگر بالاتر باشد (اثربخشی).
یادگیری ماشین برای فازینگ
در سالهای اخیر، شاهد روند رو به رشدی از تقویت تکنیکهای فازینگ سنتی برنامههای وب با روشهای یادگیری ماشین ML بودهایم که طیف وسیعی از روشهای آموزش ML را در بر میگیرد — از یادگیری نظارتشده (Liu, Li, and Chen 2020) تا روشهای یادگیری تقویتی (RL) (Böttinger, Godefroid, and Singh 2018). فازرهای مبتنی بر ML نسبت به فازرهای غیر ML چند مزیت مهم دارند. برای مثال، روشهای فازینگ مبتنی بر RL سازگار هستند، یعنی میتوان آنها را بهسادگی تنظیم کرد تا انواع مختلفی از بردارهای حمله را کاوش کنند و خود را با گونههای متفاوتی از برنامههای هدف وفق دهند (Scott et al. 2021). مزیت دیگر این است که فازرهای مبتنی بر ML میتوانند الگوهای پیچیده بردارهای حمله را بیاموزند که ممکن است برای انسان سختتشخیص باشند و دشوار باشد آنها را بهصورت ثابت در فازر غیر ML کدنویسی کرد. از سوی دیگر، فازرهای مبتنی بر ML که بر یادگیری نظارتشده تکیه دارند معایبی نیز دارند؛ مثلاً ممکن است برای شناسایی دقیق الگوهایی که قابلیت تبدیلشدن به عملگرهای جهش را دارند، به مجموعهٔ بزرگی از دادههای آموزشی برچسبخورده از بردارهای حمله نیاز داشته باشند. در نهایت، مشکل سنتیِ سازگار ساختن عملگرهای جهش با گرامر، همچنان در مورد فازرهای جهش مبتنی بر ML ارائهشده تاکنون وجود دارد. بسته به نوع برنامه هدف و پیچیدگی گرامرهای ورودی آنها، تعیین چنین گرامرهایی میتواند پرهزینه، مستعد خطا و زمانبر باشد. ترجیح این است که فازرها از روی دادهها که شامل گرامر برنامه هدف و الگوهای بردار حملهای که احتمال موفقیتشان بیشتر است، بیاموزند.
مروری کوتاه بر BertRLFuzzer
پژوهشگران به منظور پاسخ به این چالشها، BertRLFuzzer را معرفی کردند، یک فازر مبتنی بر BERT (مخفف «نمایش رمزگذار دوجهتی از تبدیلکنندهها»، بخشی از ابزارهای قدرتمند پردازش زبان طبیعی مانند ChatGPT (OpenAI 2023)) و فازر مبتنی بر (RL). برخلاف فازرهای سنتی مبتنی بر ML و غیر ML، BertRLFuzzer تمامی ویژگیهای ذکرشده را داراست؛ یعنی این ابزار خودکار، قابل توسعه، منطبق با گرامر است و همانطور که نتایج آزمایشهای پژوهشگران نشان میدهند، کارا و مؤثر نیز میباشد.
ورودی و خروجی BertRLFuzzer:
ابزار BertRLFuzzer ، یک برنامه قربانی و لیستی از ورودیهای seed با پایبندی به گرامر را از یک مولد seed به عنوان ورودی دریافت میکند این ورودیها نمونههایی از یک کلاس شناختهشده از آسیبپذیریها هستند) و بهعنوان خروجی یک بردار حمله جدید ارائه میدهد که هدف آن آشکار کردن آسیب پذیریهای امنیتی قبلاً ناشناخته در برنامه هدف است.
چرا از مدل BERT استفاده کنیم؟
همانطور که پیشتر اشاره شد، شناساندن گرامر به فازرها بهصورت سنتی فرآیندی پرهزینه و نیازمند نیروی کار بوده است، بهویژه هنگام هدفگیری مجدد فازرها برای برنامهها و الگوهای بردار حمله مختلف. خوشبختانه، ظهور مدلهای زبانی (LM) در سالهای اخیر فرصت بسیار خوبی برای حل این مسئله چند دههای در اختیار ما قرار داده است. دلیل این امر این است که ثابت شده مدلهای زبانی بدون نیاز به مشخصکردن صریح گرامرها، ظرفیت شگفتآوری برای یادگیری گرامر زبانهای برنامهنویسی — تنها از روی بخشهایی از کد — دارند. بر اساس این مشاهدات، بینش کلیدی در کار ما این است که یک فازر تقویتشده با مدل زبانی میتواند بهصورت خودکار گرامرِ (قابلتوجهِ) برنامه هدف و بردارهای حمله را از دادهها (یعنی مجموعهای از بردارهای حمله یا ورودیهای اولیه که مطابق گرامر هستند) بیاموزد. این رویکرد، پتانسیل رفع یکی از مشکلات عمدهای را دارد که توسعهدهندگان فازر طی دههها با آن مواجه بودهاند.
چرا از یادگیری تقویتی (RL) در فازینگ استفاده کنیم؟
توجه داشته باشید که صرفاً یادگیری گرامر برنامهء هدف (قربانی)، کافی نیست چرا که ممکن است هیچ آسیبپذیریِ جدیدی را در آن برنامه آشکار نکند. در مقابل، فازر باید ورودیهای اولیه را بهگونهای جهش دهد که احتمالاً آسیبپذیریهای تازهای را در برنامه هدف آشکار سازد. این یک مسئله دشوار جستوجو در فضای نمایی بزرگی از ورودیهای برنامه هدف است. به عنوان مثال، یک رویکرد سادهانگارانه، اصلاح ورودی اولیه به شیوهای مطابق با دستور زبان، با تمام ترکیبات ممکن از یک الگوی بردار حمله است؛ اما چنین رویکردی دچار انفجار ترکیبی میشود.
یک رویکرد بهتر، استفاده از تکنیکهای جستجوی اکتشافی، مانند ادبیات یادگیری تقویتی RL است که هدف آن، تمرکز مؤثر بر آسیب پذیریهای برنامه قربانی است. به طور خلاصه، مزیت یک تکنیک یادگیری تقویتی RL که به درستی طراحی شده باشد این است که اغلب میتواند یک الگوی بردار حمله را که مختص یک برنامه قربانی مشخص است، کشف کرده و یاد بگیرد و این کار را به طور کارآمد و کاملاً خودکار انجام دهد. بر اساس این اصل کلی، BertRLFuzzer دارای یک عامل حالتدار RL است که یک عملگر جهش (یعنی دنبالهای از عملیات که یک ورودی مناسب و مطابق گرامر را دریافت کرده و آن را برای برنامه هدف به یک بردار حمله تبدیل میکند) را یاد میگیرد. از آنجایی که این یادگیری از طریق بازخورد از برنامه قربانی مشخص (که ممکن است حاوی پاککنندههای عبارات منظم برای محافظت از برنامه باشد) رخ میدهد، BERTRLFUSZER قادر است نقاط ضعف موجود در برنامه مذکور را، در صورت وجود، پیدا کند. عملگرهای جهشی که از طریق یادگیری تقویتیRLدر BERTRLFuzzer آموخته میشوند، آن را قادر میسازند تا به طور خودکار فضایی از بردارهای حمله را به روشی اکتشافی و مختص به برنامه قربانی، بدون هیچ گونه دخالت انسانی، کاوش کند و BERTRLFuzzer را به صورت خودکار اجرا کند.
ادغام BERT و یادگیری تقویتی (RL) در BertRLFuzzer:
در BertRLFuzzer، یک مدل BERT از پیشآموزشدیده (آموزشدیده روی ورودیهای اولیه برنامه هدف، و بدینترتیب قادر به یادگیری گرامر آن برنامه و الگوهای حمله) بهعنوان عامل در یک حلقه یادگیری تقویتی (RL) که با برنامه هدف در تعامل است، عمل میکند. این حلقه RL به نوبه خود به BertRLFuzzer امکان میدهد تا دقیقاً آن گونه جهشها را پیدا کند که احتمالاً بهطور زیادی میتوانند آسیبپذیریهای امنیتی در برنامه هدف را افشا کنند.
قابلیتِ مدلهای BERT در یادگیری نمایشِ گرامرها همچنین این امکان را به BertRLFuzzer میدهد که بهسادگی قابلتوسعه باشد؛ یعنی با مجموعهدادهای مناسب از ورودیهای اولیه بدون برچسب، کاربر میتواند مدل BERT را دوباره آموزش دهد تا یک کلاس جدید از عملگرهای جهش برای یک برنامه هدف مشخص تولید کند. سپس حلقه RL این مدل از پیشآموزشدیده BERT را با استفاده از برنامه هدف، عملگرهای جهش و مکانیزم پاداش بهصورت دقیقتر تنظیم میکند تا با جستجو در فضای ورودیها، یک کلاس جدید از بردارهای حمله را برای آن برنامه تولید نماید. نکته جذاب این رویکرد آن است که کاربر نیازی به رمزگذاری یا تعریف صریح گرامر الگوهای حمله ندارد — تمام این امور بهصورت خودکار با بهکارگیری مدل BERT و یک حلقه RL طراحیشده مناسب انجام میشود.
استفاده از یادگیری تقویتی برای شبیهسازی رفتار یک مهاجم تطبیقی اکنون بهطور گستردهای پذیرفته شده است. با این حال، تا جایی که ما میدانیم، بهکارگیری مدل BERT بهعنوان یک عامل در حلقه RL داخل یک فازر نوآورانه است. این انتخاب تضمین میکند که عامل RL فازر ما بر اساس نحو و معناهای آموختهشده — درست مانند یک هکر — قضاوتهای مناسبی انجام دهد (و در نتیجه فضای جستوجو را تقلیل دهد)، بهجای آنکه جهشهای تصادفی پیشنهاد کند که ممکن است تضمینکننده سازگاری رشتههای خروجی با گرامر نباشند.
پژوهشگران به منظور ارزیابی صحیح شایستگی علمی ایدههای خود، یک مقایسه تجربی گسترده و کامل از BERTRLFUSZER با ۱۳ فازر دیگر مبتنی بر جعبه سیاه، جعبه سفید، مبتنیبر ML و غیر‑ML بر روی یک معیار گزینشی از ۹ برنامه وب قربانی که اندازه آنها از چند صد تا ۱۶ هزار خط کد متغیر است، انجام دادند. آنها از طریق سوالات تحقیقاتی خود، نشان دادند که BERTRLFUSZER تمام ویژگیهای مورد نیاز از یک فازر مبتنی بر یادگیری ماشینی مدرن، مؤثر، کارآمد، مطابق با دستور زبان، قابل توسعه و خودکار را دارا میباشد.
مشارکتها
- پژوهشگران BertRLFuzzer را معرفی کردند؛ یک فازر جدید برای برنامههای وب مبتنی بر BERT و یادگیری تقویتی که ویژگیهای زیر را داراست: خودکار (عملگرهای جهش را بدون کمک انسانی میآموزد)، قابلتوسعه (قابل بسط به کلاسهای جدیدی از آسیبپذیریها و برنامههای هدف)، منطبق با گرامر (بردارهای حمله خروجی با دقت بالا مطابق گرامر برنامههای هدف هستند)، مؤثر (توانایی کشف تعداد بیشتری از آسیبپذیریهای امنیتی نسبت به ابزارهای پیشرفته رقیب) و کارا (زمان تا اولین حمله کم است). پژوهشگران مدعی هستند در زمان نگارش مقاله، هیچ فازر مبتنی بر یادگیری ماشین دیگری از معماری BERT و الگوریتم مبتنی بر RL برای حل مسئله فوقالذکر استفاده نمیکند.
- پژوهشگران یک ارزیابی تجربی گسترده از BertRLFuzzer را به انجام رساندند و آن را در برابر مجموعاً ۱۳ فازر جعبه سیاه و جعبه سفید مقایسه کردند: ۷ فازر جعبه سیاه مبتنی بر یادگیری ماشین (DeepSQLi، DeepFuzz، فازر DQN، نسخههای اصلاحشده DeepXSS، DeepFix، GRU-PPO، DQN)، ۳ فازر پایبند به گرامر (BIOFuzz، SQLMap، تغییردهنده خط پایه)، یک فازر جعبه سفید Ardilla، یک تغییردهنده تصادفی پایه و یک فازر تصادفی پایه. آنها اثربخشی و کارایی BertRLFuzzer را روی یک بنچمارک شامل ۹ وبسایت هدف تا سقف ۱۶ هزار خط کد اعتبارسنجی کردند. در مجموعهای از وبسایتهای بنچمارک دنیای واقعی، بهبود قابل توجهی از نظر زمان اولین حمله (۵۴٪ کمتر از نزدیکترین ابزار رقیب)، زمان یافتن همه آسیبپذیریها (۴۰-۶۰٪ کمتر از نزدیکترین ابزار رقیب) و نرخ آسیبپذیریهای یافت شده (۴.۴٪ بیشتر از نزدیکترین ابزار رقیب) در انواع وبسایتهای معیار دنیای واقعی مشاهده گردید.
پیشزمینه
مدلهای ترنسفورمر و BERT:
مدلهای مبتنی بر ترنسفورمر (مبدل) از اجزای کلیدی در مدلهای بسیار موفق پردازش زبان طبیعی (NLP) بهشمار میروند، مانند GPT-3 (Brown et al. 2020)، ChatGPT (OpenAI 2023) و PALM از گوگل (Chowdhery et al. 2022). در سالهای اخیر، این مدلها با موفقیت در حوزه زبانهای برنامهنویسی رسمی نیز بهکار گرفته شدهاند، از جمله در زمینه ترجمه کد، تولید یا سنتز کد، درک کد و تحلیل معنایی آن.
مدلهای BERT (مخفف Bidirectional Encoder Representations from Transformers) بر پایه معماری ترنسفورمر ساخته شدهاند. مدلهای BERT رشتههای متنی را که از یک الفبای محدود تشکیل شدهاند بهعنوان ورودی دریافت کرده و آنها را به یک نمایش برداریشده تبدیل میکنند (به منظور دریافت جزئیات بیشتر، خواننده میتواند به مقاله Bommasani و همکاران (Bommasani et al. 2021) برای مرور جامعی از مدلهای BERT مراجعه کند، و همچنین به منابع اصلی Devlin et al. (2018) و Liu et al. (2019b) رجوع نماید).
یادگیری تقویتی (Reinforcement Learning – RL):
در حوزه یادگیری تقویتی و الگوریتم بهینهسازی سیاست مجاور (Proximal Policy Optimization – PPO) منابع گستردهای وجود دارد، و برای مطالعه بیشتر میتوان به کتاب Sutton و Barto (2018) مراجعه کرد. شبکه Q عمیق (DQN) یک الگوریتم یادگیری تقویتی حالتمند است که از شبکههای عصبی عمیق برای تقریب تابع مقدار Q یعنی پاداش بلندمدت مورد انتظار بهینه استفاده میکند و امکان تخمین اقدام بهینه برای انجام در یک حالت معین را فراهم میکند.PPO روشهای مبتنی بر ارزش و مبتنی بر سیاست را برای بهینهسازی سیاستها با استفاده از یک رویکرد بهینهسازی منطقه اعتماد برای بهروزرسانی آنها به سمت اقدامات بهتر، ترکیب میکند. Multi-Arm Bandit (MAB) یک الگوریتم یادگیری تقویتی بدون حالت است که شامل ایجاد تعادل بین کاوش گزینههای مختلف (بازوها) با بهرهبرداری از گزینههای شناخته شده و با پاداش بالا به منظور به حداکثر رساندن پاداش تجمعی در طول زمان است.
فازینگ نرمافزار (Software Fuzzing):
فازینگ نرمافزار یکی از حوزههای گسترده، تأثیرگذار و فعال در مهندسی نرمافزار است. این حوزه نقش مهمی در کشف آسیبپذیریهای امنیتی، آزمایش استحکام نرمافزار و بهبود کیفیت کد ایفا میکند. برای آشنایی جامعتر با پیشرفتهای اخیر و طبقهبندی روشهای مختلف فازینگ، خواننده میتواند به مرور جامع Manes و همکاران (2018) مراجعه کند. اصطلاحات و مفاهیمی که در این مقاله برای فازینگ بهکار رفتهاند، همگی مطابق با استانداردهای رایج در این حوزه هستند.
فازینگ منطبق با گرامر، الگوهای حمله، برنامه هدف:
در این مقاله اصطلاحات جدید زیر را معرفی میکنیم. عبارت فازر منطبق با گرامر به برنامهای کامپیوتری اشاره دارد که رشتهای را بهعنوان ورودی گرفته و رشتهای را تولید میکند که با گرامر برنامه هدف با دقت بالا انطباق دارد. توجه کنید که این تعریف غیرِاستاندارد است و هم فازرهای سنتیِ نوشتهشده توسط انسان که خطا ندارند و گرامر را حفظ میکنند را دربر میگیرد و هم فازرهای مبتنیبر ML را که ممکن است با دقت بالا نمایش مناسبی از گرامر برنامه هدف را بیاموزند. عبارت عملگر جهش منطبق با گرامر به برنامهای اطلاق میشود که رشته ورودی را بهگونهای تغییر میدهد که خروجی با دقت بالا مطابق گرامر برنامه هدف باشد. عبارت الگوی حمله به زیر رشتههایی از یک بردار حمله اشاره دارد (مثلاً الگوهای تاتولوژی در SQLi). ما از عبارت برنامه هدف بهعنوان مترادف application-under-test نیز استفاده میکنیم.
یک مورد استفاده جذاب از BERTRLFUSZER
یک مورد استفاده بسیار قوی از ابزار BertRLFuzzer مربوط به توسعهدهندگان برنامههای قربانی (برای مثال، برنامههای وب) است که ورودیهای آنها دارای گرامرهای پیچیده هستند و از سنیتایزرهایی (sanitizers) استفاده میکنند که ممکن است آسیبپذیریهای ناشناخته داشته باشند. در چنین شرایطی، توسعه یا بهروزرسانی فازرهای جهشمحورِ مبتنی بر گرامر که بهصورت دستی نوشته میشوند، میتواند بسیار پرهزینه باشد.
علاوه بر این، ممکن است توسعهدهندگان مجموعهای از ورودیهای نمونه برای یک دسته خاص از آسیبپذیریها را در اختیار داشته باشند، اما این مجموعه آزمایشی معمولاً جامع نیست؛ در نتیجه، ممکن است نمونههای جالب و متفاوتی از بردارهای حمله وجود داشته باشند که سنیتایزرها و/یا خود برنامه در برابر آنها مقاومتی ندارند و توسعهدهندگان از آنها بیاطلاع بمانند.
در سالهای اخیر، فازرهای جهشمحورِ سازگار با گرامر متعددی برای انواع مختلفِ برنامههای هدف و دستههای گوناگونِ آسیبپذیریهای امنیتی توسعه یافتهاند. با این حال، چنین ابزارهایی هر بار که یک کلاس جدید از آسیب پذیریهای امنیتی کشف شود یا هنگامی که برای یک کلاسِ پیشتر دیدهنشده از برنامههای هدف بازاستفاده شوند، نیاز به بازبرنامهریزی توسط انسان دارند. علاوه بر این، برنامههای هدف ممکن است توسط سنیتایزرهای خطاپذیر محافظت شوند که میتوانند به توسعهدهندگان وب احساس کاذب امنیت منتقل کنند. پیدا کردن ضعفها در اینگونه سنیتایزرها اهمیت ویژهای دارد، خصوصا اگر هدف ما بهبود امنیت کلیِ اکوسیستم وب باشد. فازرهای دستنویس باید بر اساس شناخت نقاط ضعفِ یک سنیتایزرِ مشخص تعدیل شوند؛ و هرگاه توسعهدهندگان آن سنیتایزرها را تغییر دهند، ممکن است آسیب پذیریهای جدیدی پدید آید که دوباره نیازمند اصلاحِ فازرهای دستی است. همه این فرآیندها میتواند بسیار وقتگیر و پرهزینه باشد.
یکی از راههای حل مسئلهای که بالاتر توصیف شد، استفاده از یک فازر جهشمحورِ سازگار با گرامر است که خودکار و قابلگسترش (تطبیقی) باشد تا بتواند بهطور خودکار با کلاسهای جدیدِ آسیب پذیری، برنامههای هدفِ جدید و سنیتایزرهای تازه سازگار شود. همچنین بسیار مهم است که این فازر خودکار باشد؛ یعنی بتواند بدون نیاز به دخالت انسانی، یک نمایش/برداشتِ مفید از گرامرِ برنامههای هدف و الگوهای حمله بیاموزد — بدون اینکه انسان مجبور باشد گرامرها یا تشخیصدهندههای الگو (مثلاً عبارات منظم) را صریحاً تعیین کند.
ابزار BertRLFuzzer تمام قابلیتهای لازم برای سناریوی فوق را فراهم میکند (جزییات معماری را ببینید — شکل ۲). BertRLFuzzer برای یک ترکیبِ مشخصِ برنامه قربانی/سنیتایزر، یک نمایشِ مفید از گرامر را میآموزد (مرهون کاربرد مدلهای BERT) و بدین ترتیب عملگرهای جهشسازِ پایبند به گرامر تولید میکند — که به نوبه خود تضمین میکند بردارهای حمله تولیدشده نیز با گرامر سازگاری داشته باشند. حلقه یادگیری تقویتی (RL) این امکان را به ابزار میدهد که نقاط ضعف برنامه قربانی را واکاوی کرده و بهصورت اکتشافی و کارآمد در میان انفجار ترکیبیِ گونههای ممکنِ یک کلاس از بردارهای حمله جستوجو کند تا نمونههایی را بیابد که احتمال موفقیت بالاتری دارند. ترکیبِ مدل BERT و حلقه RL فرایند را بهطور کامل خودکار میسازد. ابزار BERTRLFUSZER نهتنها به تغییراتِ ممکنِ یک کلاس خاص از بردارهای حمله مینگرد، بلکه بهسادگی میتواند — با داشتن مجموعه مناسبی از ورودیهای اولیه برای یادگیری — برای سایر کلاسهای آسیب پذیریهای امنیتی نیز سازگار و توسعه باشد.
مثالی از یک حمله
برای روشنتر شدن مطلب، مثال ساده شکل ۱ را در نظر بگیرید. یک وبسایتِ هدف برای وجود آسیب پذیری SQLi مورد بررسی قرار گرفته است. آن وبسایت دارای یک سنیتایزر تعریفشده توسط انسان است که ورودی کاربر را در برابر الگوی تاتولوژی — جایی که دو عدد برای برابری بررسی میشوند — رد میکند. BERTRLFUSZER بیخبر از این پاکسازی یا سنیتایزر در برنامه وب، یک بردار حمله کاندیدا تولید میکند: ’ OR 1 = 1 ; — ، پس از تغییر یک ورودیِ اولیه مشخص، این بردار به محیطِ آزمایشی ارسال میشود. همانطور که انتظار میرود، سنیتایزر آن ورودی را رد میکند و عامل یادگیری تقویتی (RL agent) بهخاطر انتخاب آن عملگر جهش، جریمه دریافت میکند. در گام بعدی، عامل RL یک عملگر جهش متفاوت را امتحان میکند: عبارت 1 = 1 را با ’a’ = ’a’ جایگزین میکند و بردار حمله جدید و سازگار با گرامر را تولید مینماید: ’ OR ’a’ = ’a’ ; — ، این بار، رشته ورودی توانایی عبور از سنیتایزر را دارد و حمله با موفقیت اجرا میشود. قابل ذکر است که BertRLFuzzer هرگز روی ورودیِ اولیه – ’ OR ’a’ = ’a’ ; — آموزش داده نشده بود — این ابزار عبارتِ ’a’ = ’a’ را با استفاده از یک ورودیِ اولیه متفاوت یاد گرفته بود:
(IF (’a’ = ’a’) THEN dbms_lock.sleep(5); ELSE dbms_lock.sleep(0); END IF; END;)
و سپس آن را برای ساختن یک حمله تاتولوژی بهطور سازگار تطبیق داد. به عبارت دیگر، BertRLFuzzer حتی زمانی که ورودیهای اولیه تنها بخشی از گرامر ورودی را پوشش دهند، باز هم عملکرد خوبی دارد. در مثال بالا، ورودیِ اولیه الگوی حمله تاتولوژیِ مبتنی بر رشتهها (مثلاً –;’ OR ’a’ = ’a’) را ندارد و تنها الگوی تاتولوژیِ مبتنی بر اعداد (مثلاً –; OR 1 = 1’) را شامل میشود. با این حال، همانطور که در شکل ۱ نشان داده شد، مدل باز هم قادر است یک حمله تاتولوژی مبتنی بر رشته را بسازد. حلقه RL به مدل اجازه میدهد تا عملیاتهای جهش متفاوت را کاوش کند، و انتخاب ’a’ = ’a’ را انجام میدهد زیرا این توکن در واژنامه مدل BERT موجود است. مزیتِ جستجوی خودکار در فضای الگوهای حمله — در مقایسه با ایجاد تغییر دستی بردارهای حمله توسط انسان — این است که چنین فرایندی شناساییِ نقاط ضعف بالقوهای را آسانتر میکند که یک توسعهدهنده معمولی ممکن است آنها را نادیده بگیرد.
BertRLFuzzer
در این بخش، مروری بر رفتار ورودی-خروجی و جزئیات عملکرد داخلی ابزار BertRLFuzzer ارائه شده است (برای مشاهده جزئیات معماری به شکل ۲ مراجعه کنید).
ورودی و خروجی BertRLFuzzer
با فرض داشتن یک برنامه هدف (A) و مجموعهای (S) از ورودیهای اولیه (seed inputs)، BertRLFuzzer برای برنامه هدف (A) یک عملگر جهش که «بهگرامر پایبند» است و همچنین یک بردار حمله متناظر (یعنی همان عملگر، یک ورودی اولیه را به یک بردار حمله تبدیل میکند) تولید میکند. ممکن است یک ورودی اولیه واحد توسط چندین عملگر جهش مختلف که BertRLFuzzer تولید میکنند، چند بار دستخوش جهش گردد تا در نهایت بهعنوان یک بردار حمله شناسایی شود.
فهرست ورودیهای اولیه (seed inputs):
کاربر فهرستی از ورودیهای اولیه را فراهم میکند که این ورودیها باید با دستور زبان مربوطه مطابقت داشته و نمونههایی از یک کلاس شناختهشده از بردارهای حمله باشند (نمونههایی که بهراحتی در منابع عمومی یافت میشوند). ورودیهای اولیه باید نماینده واژگان و گرامرِ آن کلاس از بردارهای حمله باشند — بهعنوان نمونه، اگر مدل هیچگاه حملهای با الگوی UNION را ندیده باشد، نمیتواند خودبهخود یک حمله مبتنی بر UNION تولید کند. الگوهای رایج حمله بهعنوان دادههای پیشآموزشی برای مدل BERT و نیز بهعنوان seed inputs برای BertRLFuzzer بهکار میروند. هدف این است که ابزار بتواند نمایش معناداری از گرامر ورودی و الگوهای حمله بیاموزد و سپس بهطور خودکار بردارهای حمله مناسب و مختص برنامه هدف تولید کند.
برنامه هدف (Victim Application):
برنامه تحت وبی که در حال آزمون میباشد و قرار است برای وجود آسیب پذیریهای امنیتی بررسی گردد. توجه شود که تکنیک یادگیری تقویتیِ بهکار گرفتهشده در BertRLFuzzer به آن امکان میدهد بردارهای حملهای تولید کند که بهصورت ویژه برای یک برنامه/sanitizer خاص مناسب باشند.
بردار حمله (Attack vector):
برای یک برنامه هدف مشخص، بردار حمله به هر رشته ورودی گفته میشود که ممکن است بتواند از آسیب پذیریهای امنیتی آن برنامه سوءاستفاده کند.
جزئیات معماری BertRLFuzzer
پیشپردازش (Preprocessing)
در این مرحله، ابتدا فهرست ورودیهای اولیه (seed inputs) با استفاده از یک توکنایزر (tokenizer) استاندارد NLTK (Group 2022a) بهصورت مناسب توکنبندی میشود. n-gramهای پرکاربرد نیز به فهرست واژگان افزوده میشوند. در نهایت نام جداول و ستونهای SQL با توکنهای کلی شده (generalized tokens) جایگزین میگردند تا از آموزش پیشینِ پر سروصدا جلوگیری شود.
فیلتر ورودیهای اولیه با باندیت چندبازویی (Multi-armed Bandit – MAB Seed Filter)
در این گام از یک عامل MAB با نمونهبرداری تامسون (Thomson sampling) برای انتخاب یک ورودی اولیه از بین ورودیهای پیشپردازششده استفاده میشود. این عامل RL که مستقل از حلقه اصلی RL در BertRLFuzzer است، کمک میکند ابزار در کمینههای محلی گیر نکند — مشکلی که عمومِ فازینگ با آن مواجه است. در طول آموزش، عامل MAB میآموزد کدام ورودی اولیه احتمال تولید بردار حمله موفق بیشتری دارد.
Actor–Critic Proximal Policy Optimization (PPO)
ورودی اولیه منتخب به عامل Actor–Critic PPO در BertRLFuzzer تحویل داده میشود. بهعنوان بلوک ساختاری، عامل Actor–Critic از یک مدل BERT از پیشآموزشدیده استفاده میکند. این مدل BERT توسط مؤلفه RL تنظیم دقیق میشود تا عملگرهای جهش مناسب را طبقهبندی کند.
مدل BERT رشته ورودی توکنشده را به یک نمایش برداری رمزگذاری میکند. میتوان اکشن های عامل را بهصورت یک جفت زیر-عمل تقسیم کرد:
- انتخاب موقعیت در فهرست توکنشده که باید جهش کند (حذف/درج/جایگزینی).
- انتخاب توکن مناسب که باید در آن موقعیت جایگزین شود.
عامل RL، اکشن ها را از توزیعهای احتمالاتی نمونهبرداری میکند. این اکشن به یک جهش دهنده داده میشوند تا یک بردار حمله کاندید تولید شود و به محیط آزمون ارسال گردد. بسته به موفقیت یا عدم موفقیت بردار حمله، به عامل RL پاداش یا مجازات تعلق خواهد گرفت. پارامترهای عامل PPO میزان یادگیری، نرخ تخفیف، و… مطابق با مقاله مبنا تنظیم شده است. با تکرار این چرخه و آموزش مستمر، BERTRLFuzzer عملگرهای جهش مؤثری را برای برنامه مورد آزمون میآموزد و بهبود میبخشد.
محیط آزمایش
پژوهشگران چندین محیط وب مختلف ایجاد میکنیم که شامل صفحات وبی هستند که به انواع مختلف حملات SQLi و XSS آسیب پذیرند. بیشتر صفحات وب همچنین شامل چکهای اعتبارسنجی ورودی و سنیتایزرها (مثلاً با استفاده از عبارات منظم) هستند. این صفحات وب بهعنوان محیطی برای آموزش الگوریتم BertRLFuzzer ما عمل میکنند.
با استفاده از خزندۀ سفارشی خود، صفحات وب را پارس کرده و نقاط تزریق (برای مثال، فیلدهای ورودی کاربر) را استخراج میکنیم. یک کتابخانه آداپتور نیز پیادهسازی شده تا رشته کاندیدای حمله را به محیط آزمایشی ارسال کند. این کتابخانه همچنین مسئول ارسال بازخورد به عامل است — از قبیل اینکه آیا آخرین ورودی آزمایشی منجر به یک حملۀ موفق یا ناموفق شد و آیا رشته ارسالی قابل پارس بوده است یا خیر. برای آشکارسازی آسیب پذیریها و تأیید وجود آنها، از روشهای استانداردِ محققان پیشین (مانند DeepSQLi (Liu, Li, and Chen 2020) و Ardilla (Kieyzun et al. 2009)) استفاده شده و نتایج با بازبینی دستیِ کد تصدیق گشته است.
جزئیات پاداش و جریمه
عاملهای BERT و MAB در BertRLFuzzer در صورت وقوع یک حمله موفقِ SQLi یا XSS از محیط، یک سیگنال پاداش گسسته دریافت میکنند. با این حال این پاداش نادر (sparse) است و اگر تنها به این بازخورد باینری تکیه کنیم، یادگیریِ الگوریتم زمانبر خواهد بود. بنابراین برای موارد ناموفق، جریمههای متفاوت (گسسته) معرفی شده است. پس از اینکه موتور فازینگ، رشته جهشیافتهء جدید را تولید میکند، آن رشته را به یک پارسر (تجزیهگر) میدهد تا بررسی کند آیا عبارت حاصل شده، خوبساخت (well-formed) است یا خیر. اگر نباشد، به عامل بابت آخرین اقداماتش جریمهای تعلق میگیرد. علاوه بر این، برای رسیدن به یک رشته موفق در کمترین تعداد گامِ جهش، اگر رشته پارسر را پاس کند اما آداپتور اعلام کند که حمله موفق نبوده، جریمه کوچکی اعمال میکنیم. در نهایت، برای تشویق کشف خطاهای منحصربهفردتر، جریمهای برای تولید رشتهای که قبلاً مشاهده شده نیز وضع کردیم (قابل ذکر است که میتوانستیم از پارسرهایی استفاده کنیم که خودِ برنامههای قربانی الزاماً دارند — همان کاری که اغلب توسعهدهندگانِ برنامه و کاربران BertRLFuzzer احتمالاً انجام میدهند. تنها دلیلی که ما یک پارسر نوشتیم این بود که نخواستیم برنامه قربانی را تغییر دهیم و بهاینترتیب خطاهای جدیدی معرفی کنیم یا آن را بهنحوی خراب کنیم.)
جمعبندی: نحوه عملکرد BertRLFuzzer
در ابتدا، تولیدکننده ورودیهای اولیه BERTRLFUSZER، نمونهها را از فهرستی از ورودیهای اولیه (که نمونههایی از یک کلاسِ شناختهشده آسیبپذیری هستند) تولید میکند؛ این نمونهها پیشپردازش و توکنایزه میشوند. عامل MAB یک ورودی اولیه را از فهرست فیلتر و انتخاب کرده و آن را به عامل PPO از نوع BERT Actor–Critic که از قبل آموزشدیده شده میفرستد. عامل PPO یک عملگر جهشِ پایبند به گرامر پیشبینی میکند که سپس برای ساخت یک بردار حمله کاندیدا بهکار میرود. این بردار کاندیدا به وبسایتِ هدف در محیطِ آزمایشی ارسال میشود و سیگنال پاداش/جریمه را به عاملهای RL برمیگرداند. زمانِ موفقیت وقتی است که بردار حمله مدعی توانایی راهاندازی حمله روی برنامه هدف را بهطور واقعی داشته باشد. در صورت دریافت پاداش (یا جریمه)، عاملهای RL توزیع احتمال را تعدیل میکنند تا آن عملگر جهش را برای آن حالت ترجیح دهند (یا رد کنند). بردار کاندیدای که قبلاً جهش یافته بود اکنون بهعنوان ورودی برای عامل PPO استفاده میشود تا عملگرهای جهش جدیدی را پیشبینی کند. این حلقه چندین بار تکرار میشود، سپس رشته ورودی فعلی کنار گذاشته شده و یک ورودی جدید از عامل MAB انتخاب میگردد. فرایند فازینگ وقتی متوقف میشود که زمان تعیینشده (timeout) یا تعداد دورهای (epoch) مطلوب سپری شود.
تنظیمات آزمایش
فازرهای رقیب
پژوهشگران، BertRLFuzzer را با مجموعاً ۱۳ فازر جعبهسیاه و جعبهسفید شامل فازرهای مبتنی بر ML و غیرِ ML مورد بررسی و قیاس قرار دارند. فازرهای جهشمحورِ جعبهسیاه مبتنی بر یادگیری ماشین که در این آزمایشها استفاده شدهاند عبارتاند از:
- DeepSQLi – (Liu, Li, and Chen 2020): ورودیهای کاربر (یا یک مورد آزمایشی) را به یک مورد آزمایشی جدید تبدیل میکند که از نظر معنایی مرتبط و بهدلیل تواناییِ یادگیری «دانشِ معنایی» نهفته در حملات SQLi بالقوه پیچیدهتر است. یک شبکه تبدیلکننده توالی-به-توالی روی یک مجموعهداده آموزشی دستنویس و پایبند به گرامر آموزش داده میشود تا عملیاتهای جهش را بازتولید کند و بردارهای حمله مؤثرتری که احتمالاً حمله را برمیانگیزند، تولید نماید.
- DeepFuzz (تعدیلشده) – (Liu et al. 2019a): یک شبکه عصبی بازگشتی (RNN) است که توسط پژوهشگران برای پشتیبانی از حملات SQLi و XSS با استفاده از Deep Q-Network (DQN) اصلاح شده است. این مدل عملگرِ جهش را پیشبینی میکند، یعنی یک دنباله عملیات که یک ورودیِ بنبستِ پیرویکننده از گرامر را گرفته و آن را برای یک برنامه قربانی مشخص به یک بردار حمله تبدیل مینماید.
- فازر DQN – (Zhou et al. 2021; Erdodi, Sommervoll, and Zennaro 2021: یک مدل Q-Network عمیق (Deep Q-Network) که عملگرهای جهش را پیشبینی میکند و این عملگرها برای الگوهای خاصِ حمله طراحیشدهاند.
- DeepXSS (اصلاحشده) – (Fang و همکاران، ۲۰۱۸): برای طبقهبندی XSS با استفاده از شبکههای حافظه کوتاهمدت طولانی (LSTM) طراحی شده است. پژوهشگران آن را اصلاح کردند تا از فازینگ با استفاده از DQN برای پیشبینی عملگر جهش با استفاده مجدد از شبکههای LSTM موجود پشتیبانی کند.
- DeepFix (اصلاحشده) (گوپتا و همکاران، ۲۰۱۷): ابزار DeepFix اصلاح شده است تا از کامپوننت GRU آن بهعنوان یک فازر برای هر دو نوع حمله SQLi و XSS استفاده شود؛ در این نسخه اصلاح شده، از DQN برای پیشبینی عملگرِ جهش استفاده میشود.
- فازر GRU-PPO: یک عامل یادگیری تقویتی (RL) مبتنی بر واحد بازگشتی دروازهای (GRU) همراه با الگوریتم Proximal Policy Optimization (PPO) طراحی و پیادهسازی شد تا عملگرِ جهش (mutation operator) را پیشبینی کند.
- فازر Multi-head DQN: یک عامل DQN مبتنی بر مکانیزم خودتوجهیِ چندسر (Multi-head self-attention) ایجاد شده است تا عملگر جهش (mutation operator) را پیشبینی کند.
فازرهای مختلفِ دستنویسِ سازگار با گرامر که در آنها گرامرِ برنامههای قربانی بهصورت صریح و توسط انسان تعریف شده است و در آزمایشهای ما مورد استفاده قرار گرفتهاند، عبارتاند از:
- BIOFuzz – (Thomé, Gorla, and Zeller 2014): ابزاری مبتنی بر جستوجو که موارد آزمایشی را با استفاده از توابع متناسب مبتنی بر گرامرهای مستقل از متن (context-free grammar) تولید میکند.
- SQLMap – (Group 2022b): از سینتکس ازپیشتعریفشده برای تولیدِ مواردِ آزمایشی استفاده میکند و هیچگونه مؤلفه یادگیری فعال (active learning) ندارد.
- Baseline Grammar Mutator: یک مولد مبتنی بر گرامر همراه با یک جهشگر (mutator) مبتنی بر همان گرامر است که توسط یکی از نویسندگان این مقاله طراحی و پیادهسازی شده است.
علاوه بر این، مقایسهای نیز با یک فازر جعبه سفید محبوب به نام Ardilla انجام شده است که از اجرای نمادین برای یافتن آسیبپذیریهای SQLi و XSS در برنامههای PHP/MySQL استفاده میکند. در نهایت، پژوهشگران دو فازر پایه (baseline) ایجاد کردند: یک جهشگر تصادفی پایه که از یک مولد مبتنی بر گرامرِ نوشتهشده توسط انسان با جهشهای تصادفی بهره میبرد، و یک فازر تصادفی پایه که ورودیهای رشتهایِ تصادفی تولید میکند.
معیارها و محیط محاسباتی
پژوهشگران برای مقایسه منصفانه با DeepSQLi و SQLmap، از همان ۴ بنچمارکی که نویسندگان آنها استفاده کردهاند بهره بردهاند (Liu, Li, and Chen 2020). بهطور مشابه، برای مقایسه با BIOFuzz و Ardilla نیز از همان ۴ بنچمارکی استفاده شده است که نویسندگان آنها گزارش کردهاند (Kieyzun et al. 2009; Thomé, Gorla, and Zeller 2014). برای جزئیات بیشتر در مورد این بنچمارکها به مقالات مرجع مراجعه کنید.
علاوه بر این، یک برنامه وب سفارشی نوشتهشده با PHP و با پایگاهداده پشتیبان MySQL ایجاد شده است و همچنین از فریمورک سبک Flask همراه با موتور پایگاهداده SQLite برای ساخت برنامههای وب کوچک حاوی آسیبپذیریهای SQLi و XSS استفاده شده است. این بنچمارکِ سفارشی شامل باگهای متنوعی است و دربردارنده سنیتایزرهای مبتنی بر عبارتهای منظم (regex) میباشد (ویژگیای که در بسیاری از بنچمارکهای دیگر غایب است).
پژوهشگران آزمایشها و آموزشها را روی یک دستگاه مجهز به پردازنده Intel i7 نسل هشتم 3.20 GHz، 32 گیگابایت حافظه RAM و سیستمعامل Ubuntu 18 (64-bit) به انجام رساندند. برای حذف سوگیری، بهتمامی ابزارهای مبتنی بر یادگیری ماشین همان ورودیهای اولیه (seed inputs) و همان زمان آموزش روی همان سختافزار داده شد. معیارهای مورد استفاده ما به طور گسترده در این زمینه مورد استفاده قرار گرفتهاند تا به عنوان یک شاخص مهم برای یافتن آسیبپذیریهای برنامههای وب و تعیین اثربخشی فازرها عمل کنند. پژوهشگران ابزارهای ذکر شده در بالا را بر اساس معیارهای زیر ارزیابی کردیم:
- زمان تا اولین حمله: زمان بر حسب ثانیه برای خروجی اولین بردار حمله که یک آسیب پذیری را آشکار میکند.
- فیلدهای منحصر به فرد: تعداد فیلدهای منحصر به فرد وبسایت که ابزار در آنها آسیب پذیریها را آشکار کرده است.
- آسیب پذیریهای یافت شده: دستههای مختلف خطاهای آشکار شده، به عنوان مثال، جفتهای منحصر به فرد پارامترهای ورودی و دستورات کوئری برای حملات SQLi . بردارهای حمله با INSERT، UNION یا UPDATE به عنوان دستههای جداگانه شمارش میشوند.
- جریمههای پارسر: نسبتِ تعداد رشتههای کاندید که پارسر آنها را رد کرده است به کلِ رشتههای کاندید تولیدشده.
- نرخ حمله یا نرخ خطا: نسبت تعداد رشتههای کاندید که منجر به حمله شدهاند به تعداد کل رشتههای کاندید تولید شده.
- زمان: زمان(wall-clock) CPU بر حسب ثانیه برای یافتن تمام آسیب پذیریها.
جدول 1: نتایج مقایسه فازرهای مختلف یادگیری ماشینی و غیر یادگیری ماشینی
ارزیابی
ارزیابی تجربیِ BertRLFuzzer بهمنظور پاسخگویی به سوالات پژوهشی زیر انجام شده است:
RQ1 (کارایی و اثربخشی ابزار BertRLFuzzer در برابر فازرهای روز): ابزار BertRLFuzzer نسبت به دیگر فازرهای مبتنی بر ML و غیر ML چه عملکردی دارد (از جمله زمان تا اولین حمله، تعداد فیلدهای یکتا کشفشده، تعداد آسیبپذیریهای پیداشده، نسبتِ جریمههای پارسر و سایر معیارهای مرتبط)؟
RQ2 (مطالعات حذف – Ablation Studies): حذف یا افزودنِ کامپوننت های مختلفِ BertRLFuzzer چه تأثیری بر عملکرد کلی ابزار دارد؟
RQ3 (قابلیت گسترش BertRLFuzzer به دستههای مختلف حمله و برنامههای هدف): ابزار BertRLFuzzer تا چه حد میتواند به سایر انواع حملات و برنامههای قربانی تعمیم یابد و عملکرد موثری را ارائه دهد؟
RQ1 (اثربخشی/کارایی در برابر فازرهای پیشرفته)
پژوهشگران ابزار BertRLFuzzer را در برابر فازرهای مختلف مبتنی بر ML و غیر ML مقایسه کردند و آنها را روی 9 برنامه وب با زمان کل 30 دقیقه برای هر ابزار اجرا نمودند. برای جلوگیری از سوگیری، به همه ابزارهای مبتنی بر یادگیری ماشین ورودی اولیه یکسان و زمان آموزش یکسان روی سختافزار یکسان ارائه شد. برای انجام یک مقایسه منصفانه با همه ابزارهای موجود، مجبور شدند برخی از این ابزارها را اصلاح کنند. آنها ابزارها را از نظر زمان اولین حمله، فیلدهای منحصر به فرد، تعداد آسیب پذیریهای یافت شده و جریمههای تجزیهگر ارزیابی کردند.
یافتههای پژوهشگران نشان میدهد که BertRLFuzzer در معیارهای «زمان تا اولین حمله»، «فیلدهای منحصر به فرد» و «تعداد آسیب پذیریهای کشفشده» از تمام ابزارهای دیگر جلوتر است (جدول ۱). بهطور مشخص، BertRLFuzzer در معیار «زمان تا اولین حمله»، ۵۴٪ سریعتر از نزدیکترین ابزار رقیب عمل میکند و ۱۷ آسیب پذیری جدید را در ۱۳ فیلد منحصر به فرد جدید کشف کرده است. تنها معیاری که در آن BertRLFuzzer بهترین نیست، «جریمههای پارسر» است؛ در این معیار امتیاز ما ۵٪ است در حالی که فازر جهش سازگار با گرامری که پژوهشگران نوشتهاند امتیاز ۰٪ را دارد. این مسئله قابل انتظار است؛ زیرا در مورد فازرِ دستنویسِ سازگار با گرامر، آنها بهطور صریح گرامر را مشخص کردهاند، در حالی که BertRLFuzzer صرفاً یک نمایش از گرامرِ برنامه قربانی را با دقتِ بالا آموخته است.
علاوه بر این، هرچند فازر جهش سازگار با گرامر، ۰٪ خطای پارسینگ دارد، اما قادر به کشف هیچ آسیب پذیری در برنامه وب نیست. دلیل این امر آن است که فضای ورودیهایی که فازر باید در آن جستوجو کند بسیار وسیع و تقریبی بینهایت است و جستوجوی بدون راهنمایی در چنین محیطهایی در عمل با شکست مواجه میشود. در مقابل، مشاهده میکنیم که BertRLFuzzer قادر است بهصورت اکتشافی بردارهای حمله را تولید کند، بر اساس تعمیم الگوهای مشاهده شده قبلی، و بدین ترتیب فضای جستوجو را به شکل چشمگیری کاهش دهد. شایان ذکر است که توسعهدهندگان وب اغلب به این نوع بردارهای حمله علاقهمندند، جایی که ممکن است برخی الگوهای ساده را مشخص کرده باشند اما ترکیبهای این الگوها که احتمالاً بردارهای حمله نیز هستند را نادیده گرفته باشند.
فازر DQN تنها کاراکترهای فرار (escape characters) را پیشبینی میکند و در دو الگوی مشخصِ حمله که پایبند به گرامر هستند، بهصورت محدود عملهایی مانند افزودن یا حذف نام ستونها را انجام میدهد تا بردارهای حملۀ SQLi تولید کند. بنابراین، هرچند گرامر را حفظ میکند، اما تنها قادر به تولید بردارهای حملۀ سادهای مانند حملاتِ مبتنی بر UNION و تاتولوژی (tautology) است.
مشاهده میکنیم که ابزارهای مبتنی بر گرامرِ غیر ML ناکارآمدند زیرا نمیتوانند «یاد بگیرند» چگونه جهشهایی تولید کنند که بردارهای حمله را برانگیزند و در نتیجه به جستوجوی بدونهدایت (unguided search) متوسل میشوند. فازر مبتنی بر DQN نیز بهراحتی قابلسازگاری نیست، چرا که لازم است الگوهای معمولِ برانگیزاننده حمله (مانند یک رشته عمومیِ مبتنی بر UNION برای SQLi) و عملگرهای جهشِ خاصِ آن حمله را صریحاً تعریف کرد. علاوه بر این، در نبود چنین آسیبپذیریهایی، این ابزار قادر به شناسایی بردارهای حمله جدید نخواهد بود. فازرهای تصادفی بالاترین نسبتِ خطای پارسینگ را دارند و هیچ آسیب پذیری را نشان نمیدهند، زیرا رشتههای تولیدی آنها از گرامر پیروی نمیکنند. سایر فازرهای مبتنی بر یادگیری ماشینی مانند DeepFuzz، DeepXSS و DeepFix نیاز به تلاش دستی برای ساخت یک مجموعهداده برچسبخورده جهت آموزش دارند که باعث میشود تطبیق آنها با حملات جدید بدون دانشپیشینیِ دامنه دشوار باشد. حتی اگر از تکنیکهای RL (مانند DQN) برای حذف نیاز به ساخت مجموعهداده آموزشی برای حملاتِ در دسترسنبودنی استفاده شود، بیشتر رشتههای کاندیدا پس از جهش، آگاه از گرامر نیستند (که با افزایشِ جریمه پارسر نشان داده میشود). این موضوع باعث هدر رفتن زیادی از زمان در گیر شدن با پارسر میشود. در مقابل، ابزار ما خودکار است (بدون دخالت انسانی عملگر جهش را میآموزد)، پایبند به گرامر است (بردارهای حمله خروجی با دقت بالا از گرامرِ برنامه قربانی پیروی میکنند)، مؤثر است (بیشتر از ابزارهای پیشرفته رقیب آسیبپذیری کشف میکند) و کارا است (زمان تا اولین حمله کم است).
RQ2 (مطالعات حذف)
جدول ۲: تأثیر انتخابهای طراحی: مطالعات تخریب
پژوهشگران از همان برنامههای وب مورد استفاده در بالا بهره بردند و یک مطالعه حذف انجام دادند تا مشاهده کنند که چگونه هر کامپوننت نقش اساسی در BERTRLFuzzer ایفا میکند. آنها مشاهده کردند که استفاده از یک مدل توجه بر روی یک مدل GRU مبتنی بر تکرار، منجر به حمله اولیه سریعتر، جریمههای پارسر کمتر و افزایش تشخیص آسیب پذیری میشود (جدول 2). معرفی یک عامل PPO با سیگنالهای پاداش بهبود یافته در حلقه یادگیری تقویتی BERTRLFuzzer، تعداد فیلدهای منحصر به فرد (+5) و آسیب پذیریهای یافت شده (9+) را به طور قابل توجهی افزایش داد. این نتیجه بیانگر آن است که استفاده از یک سیگنال پاداش بهبود یافته به BERTRRL-FUZZER کمک میکند تا فضای جستجو را بهتر کاوش کند. همچنین پیشرفتهای واضحی نسبت به یک شبکه Q عمیق DQN وجود دارد، زیرا PPO میتواند فضاهای عمل بزرگ و پاداشهای پراکنده را مدیریت کند (Schulman و همکاران، 2017). علاوه بر این، استفاده از یک مدل BERT به عنوان یک عامل یادگیری تقویتی منجر به کاهش شدید جریمههای پارسر (-13%) نسبت به یک عامل یادگیری تقویتی معمولی شد. این نتیجه نشان میدهد که استفاده از مدل BERT، BERTRLFuzzer را قادر میسازد تا به طور قابل توجهی نسبت به تکنیکهای مشابه، پایبندی بیشتری به گرامر داشته باشد. همچنین، فیلتر کردن ورودی اولیه با استفاده از یک عامل MAB، زمان اولین حمله را کاهش داد (-13.56٪). همانطور که توسط BanditFuzz (Scott و همکاران، 2021) نیز مشاهده شد، مدلهای یادگیری تقویتی تک عاملی میتوانند در حداقلهای محلی گیر کنند و برای یافتن بردار حمله خروجی، زمان بیشتری صرف نمایند (Saavedra و همکاران، 2019؛ Duchene 2013؛ Gerlich و Prause 2020؛ Man`es، Kim و Cha 2020). بنابراین، استفاده از یک عامل ثانویه سبک وزن به یادگیری اینکه کدام یک از این عوامل به احتمال زیاد منجر به یک حمله موفق میشود، کمک میکند و عملکرد بهتری نسبت به انتخاب قطعی یا تصادفی یک عامل ورودی دارد.
RQ3 (قابلیت توسعه به دستههای مختلف حملات)
پژوهشگران آزمایشهایمان را روی دو مجموعه هشتتایی بنچمارکهای واقعی (هر مجموعه شامل ۴ بنچمارک) مقابل ابزارهای جدید جعبهسیاه و جعبهسفید مقایسه کردند. برای نشاندادن اینکه ابزار آنها بهراحتی قابل تعمیم به طبقات دیگر حمله فراتر از SQLi است، یکی از این مجموعههای بنچمارک واقعی را که شامل آسیب پذیریهای XSS است نیز ارزیابی کردند. قابلیتِ پیشآموزشِ سریع یک مدلِ سازگار با گرامر موجب میشود ابزار بتواند بهسرعت و با کمترین تلاش برای آموزش مجدد، به حملات جدید تعمیم یابد.
جدول ۳: مقایسهی DeepSQLi و SQLmap در معیارهای دنیای واقعی
جدول ۴: مقایسه با توجه به معیارهای دنیای واقعی بین BIOFuzz و Ardilla
اولین مجموعه معیارها شامل شش برنامه وب تجاری دنیای واقعی است که به طور گسترده توسط محققان استفاده میشود (Halfond, Orso, and Manolios 2006; Liu, Li, and Chen2020). این برنامههای وب به زبان جاوا نوشته شدهاند و از یک پایگاه داده پشتیبان MySQL استفاده میکنند. پژوهشگران ابزار خود، BERTRL-FUZZER، را با دو رویکرد جعبه سیاه DeepSQLi (Liu, Li, and Chen 2020) و SQLMap (Group 2022b) مقایسه کردند. آنها از نتایج گزارششده توسط DeepSQLi (لیو، لی و چن، 2020) استفاده مجدد نمودند و آزمایشهای خود را انجام دادند و آن را 20 بار با استفاده از همان تنظیمات محاسباتی مورد استفاده توسط DeepSQLi (لیو، لی و چن، 2020) تکرار کردند. پژوهشگران ابزار خود را بر اساس معیارهای مشابه مورد استفاده آنها، یعنی نرخ حمله (یا نرخ خطا) و زمان ساعت CPU ارزیابی کردند. آنها دریافتیم که این ابزار به طور قابل توجهی از هر دو ابزار بهتر عمل میکند و به نرخ خطای بالاتری، 1.91-4.38٪ بیشتر از نزدیکترین ابزار رقیب، در کمتر از نیمی از زمان صرفشده برای کشف تمام آسیب پذیریهای گزارششده توسط نویسندگان ابزار (جدول 3) دست مییابد.
پژوهشگران برای مجموعه دوم معیارها (جدول 4)، ابزار خود را با یک ابزار جعبه سفید محبوب Ardilla (کیزون و همکاران، 2009) و یک ابزار مبتنی بر تست تکاملی جعبه سیاه BIOFuzz (تام، گورلا و زلر، 2014) مقایسه کردند. آنها از همان مطالعات موردی (مجموعه معیار) استفاده شده توسط Ardilla و BIO-Fuzz استفاده نمودند و از نتایج گزارش شده توسط نویسندگان نیز استفاده مجدد کردند، زیرا Ardilla در دسترس عموم نیست و BIOFuzz به شدت قدیمی است. آنها همچنین با استفاده از همان معیارهای مورد استفاده توسط نویسندگان Ardilla، یعنی تعداد آسیب پذیریهای شناسایی شده و زمان اجرا یا زمان انقضا بر حسب ثانیه، ارزیابی را انجام دادند. Ardilla ابزاری نسبتاً قدیمی است و توسط نویسندگان برای تمام مطالعات موردی با زمان انقضای 30 دقیقه اجرا شد. پژوهشگران برای مقایسهای منصفانه با ابزار، از همان تنظیمات آزمایشی BIOFuzz استفاده کردیم. ابزار BERTRLFUSZER میتواند تمام آسیبپذیریهای SQLi و XSS1 (XSS مرتبه اول) گزارش شده توسط نویسندگان را پیدا کند. از آنجایی که BIO-Fuzz فقط از SQLi پشتیبانی میکند، نویسندگان هیچ آسیب پذیری XSS1 یا XSS2 (XSS مرتبه دوم) را گزارش نکردند. ابزار BERTRLFUSZER همچنین سه آسیب پذیری جدید SQLi را پیدا کرد که توسط Ardilla گزارش نشده بودند، اما توسط BIOFuzz گزارش شده بودند. این نشان میدهد که ابزار BERTRLFUSZER میتواند الگوهای حمله متفاوتی را برای آسیب پذیریهای SQLi پیدا کند. از سوی دیگر، BERTRLFUSZER نتوانست چهار آسیب پذیری XSS2 گزارش شده توسط Ardilla را پیدا کند. یافتن حملات XSS مرتبه دوم XSS2 چالش برانگیز است زیرا توالی ورودیها مسئول ایجاد چنین حملهای است. بنابراین، یک فازر جعبه سفید مبتنی بر حلکننده SMT مانند Ardilla میتواند به راحتی این رشتههای آزمایشی را استنباط کند. علاوه بر این، BERTRLFUSZER در همه موارد به طور قابل توجهی سریعتر است (بهبود 40-60٪) به جز یک مورد که ابزار BIOFuzz حمله SQLi را چند ثانیه سریعتر تشخیص میدهد. بنابراین، میتوانیم بگوییم که BERTRLFUSZER به راحتی میتواند به برنامههای قربانی جدید و همچنین کلاس متفاوتی از آسیبپذیریها (مثلاً XSS) گسترش یابد و میتواند به اندازه یک فازر جعبه سفید پیشرفته مانند Ardilla در یافتن آسیبپذیریها در زمان بسیار کمتری مؤثر باشد.
تهدیدات اعتبار
اعتبار ارزیابی تجربی: پژوهشگران ابزار خود را با ۱۳ ابزار پیشرفته دیگر بر روی ۹ بنچمارک بزرگ و واقعی مقایسه کردند که اغلب توسط نویسندگان ابزارهای رقیب نیز استفاده شدهاند (. همچنین از معیارهایی بهره بردند که در این حوزه بهطور گستردهای به کار رفتهاند و بهعنوان شاخص مهمی برای شناسایی آسیب پذیریهای برنامههای وب عمل میکنند. تا آنجا که ما اطلاع داریم، ارزیابی تجربی این پژوهشگران جامعترین و دقیقترین ارزیابی انجامشده برای هر ابزار فازینگ از این نوع است.
یادگیری ساختار معنایی کلی آسیبپذیریهای برنامههای وب: همانطور که قبلاً ذکر شد، مدلهای BERT با دقت بالا، برخی از نمایشهای گرامر ورودیهای خود را یاد میگیرند. البته این بدان معناست که ما انتظار نداریم که مدل ما گرامر را به طور کامل یاد بگیرد. با این اوصاف، مدلهای زبانی مانند BERT با بهرهگیری از مکانیزم توجه، موفقیت تجربی فوقالعادهای در یادگیری دستور زبان پیچیده داشتهاند (واسوانی و همکاران، ۲۰۱۷). برخی از نمونهها شامل ترجمه کد از یک زبان برنامهنویسی به زبان دیگر (لاچاکس و همکاران، ۲۰۲۰؛ ماستروپائولو و همکاران، ۲۰۲۱)، ترکیب برنامه (آلامانیز و ساتون، ۲۰۱۳؛ چن و همکاران، ۲۰۲۱) و درک کد (مو و همکاران، ۲۰۱۶؛ گوئو و همکاران، ۲۰۲۰؛ فنگ و همکاران، ۲۰۲۰) هستند. در تمام این کاربردها، یک مدل یادگیری ماشینی، یک مدل تجربی بسیار دقیق از گرامر یک پیشنیاز است. BERTRLFUSZER کاربرد دیگری از BERT را ارائه میدهد که توانایی آن را در یادگیری یک مدل بسیار دقیق از گرامر پیچیده نشان میدهد. در ارزیابی، مشاهده کردیم که BERTRLFUSZER میتواند تا 95٪ دقیق باشد و تنها توسط فازرهای جهشی دستنویس که به گرامر پایبند هستند، از آن پیشی میگیرد.
توسعهپذیری BERTRLFUSZER: پژوهشگران در این مقاله، ابزار خود را به طور گسترده در دو مورد استفاده متعامد (یعنی SQLi و XSS) ارزیابی کردند. همانطور که در بالا ذکر شد، توانایی مدلهای زبانی، مانند BERT، برای یادگیری بازنماییهای تجربی دقیق از گرامرهای پیچیده و غیر بدیهی (به عنوان مثال، زبانهای برنامهنویسی) نشان میدهد که BERTRLFUSZER را میتوان به راحتی به سایر کلاسهای برنامهها و بردارهای حمله گسترش داد. فرآیند فازینگ BERTRLFuzzer به راحتی قابل تغییر، سفارشیسازی و مانور است. طراح میتواند با ارائه مجموعهای تحت نظارت از مثالهای آموزشی با عملیات جهش خاص که معمولاً برای الگوهای حملهای که طراح میخواهد روی آنها تمرکز کند، شناخته شدهاند، ابزار را تغییر دهد. این الگوهای جهش تعریفشده توسط توسعهدهنده، به عنوان یک مرحله اولیه تنظیم دقیق قبل از شروع حلقه یادگیری تقویتی عمل میکنند و به مدل کمک میکنند تا الگوهای حمله بهتر و سریعتر را یاد بگیرد. به طور دقیقتر، فازینگ را میتوان با جایگزینی ساده ورودیهای اولیه، مدل BERT از پیش آموزشدیده و محیط (برنامه تحت آزمایش) به یک برنامه متفاوت گسترش داد.
کارهای مرتبط
در حوزه فازینگ، یادگیری تقویتی (Reinforcement Learning) انتخابِ محبوبی برای خلق انواع الگوریتمهای فازینگ بوده است، بهویژه در زمینه انتخابِ عملیاتِ جهش. علاوه بر این، مسئله تست نفوذ قبلاً بهصورت مسائل یادگیری تقویتی مدلسازی شده است و از تجریدهای مختلفی برای مسئله استفاده شده است. در روزهای نخست، الگوریتمِ SARSA (State–Action–Reward–State–Action) انتخابِ رایجی برای این کار بود (Becker et al. 2010) و پس از آن Q‑Learning متداول شد (Fang and Yan 2018). با گسترشِ یادگیری عمیق، نسخههای عمیقِ Q‑Learning توسط Böttinger و همکاران برای انتخابِ عملیاتِ جهش بهکار رفتند (Böttinger, Godefroid, and Singh 2018)، و توسط Kuznetsov و همکاران برای تحلیلِ قابلیتِ سوءاستفاده (exploitability analysis) استفاده شد (Kuznetsov et al. 2019). Drozd و همکاران از یک واریانتِ دیگرِ Deep Q‑Learning بهنام Deep Double Q‑Learning بههمراه مدلِ حافظه بلند-کوتاهمدت (LSTM) — که در پردازش زبان طبیعی محبوب است — برای انتخابِ عملیاتِ جهش بهره بردند (Drozd and Wagner 2018). بهطور مشابه، μ4SQLi (Appelt et al. 2014) نیز عملیاتِ جهش را روی ورودیهای اولیه اجرا میکند اما برای مجموعه ثابتی از الگوها طراحی شدهاست. برای مقابله با مسئله بهرهکاوی (exploitation) که اغلب روشهای مبتنی بر RL را گرفتار میکند، برخی کارهای اخیر بر بهرهکاوی در محیطِ سادهشده SQL برای الگوهای حمله و عملگرهای جهشِ مشخص تمرکز کردهاند (Erdodi, Sommervoll, and Zennaro 2021; Verme et al. 2021).
فازرهای عمومی مانند AFL (Zalewski 2015) و PerfFuzz )Lemieux و همکاران 2018) که حول دستکاری رشتههای بیتی ساخته شدهاند، به گرامر پایبند نیستند و از این رو قادر به تولید ورودیهای خوش ساخت برای گرامرهای پیچیده معمول برای برنامههای وب نیستند.
BanditFuzz یک فازر مبتنی بر RL برای بهبود عملکرد حلکنندههای Satisfiability Modulo Theories (SMT) است. با این حال، عامل RL آن (MAB) بدون حالت (stateless) عمل میکند (Vermorel and Mohri 2005)، به این معنی که پاداشها تنها بر اساس عملیاتها یاد گرفته میشوند و از وضعیت جاری (مثلاً رشته اولیه در مثال ما) مستقل هستند. علاوه بر این، برخلاف BertRLFuzzer، BanditFuzz نمیتواند هیچ نمایشی از گرامر برنامههای قربانی بیاموزد، و بنابراین نه پایبند به گرامر است و نه بهراحتی قابل توسعه.
برخلاف رویکردهای فوق در فازینگ مبتنی بر ML/RL و غیرML، ما در BertRLFuzzer از ترکیب مدل BERT بهعنوان عامل RL استفاده کردهایم. این امر موجب میشود ابزار ما پایبند به گرامر، قابل توسعه و خودکار باشد — ویژگیهایی که در فازرهای پیشرفتهٔ دیگر مشاهده نمیشود. علاوه بر این، آزمایشهای گستردهٔ ما روی مجموعه بزرگی از بنچمارکهای واقعی نشان میدهد که ابزار ما از نظر اثربخشی و کارایی نسبت به ابزارهای رقیب برتری دارد.
نتیجهگیری
در این مقاله، BERTRLFuzzer، یک فازر مبتنی بر یادگیری تقویتی RL را معرفی کردیم. BERTRLFuzzer اولین فازر مبتنی بر یادگیری ماشین است که از معماری BERT و الگوریتم مبتنی بر یادگیری تقویتی بدون نیاز به فایل گرامری ساخته شده دستی یا مجموعه دادههای آموزشی برچسبگذاری شده استفاده میکند.
با انجام یک ارزیابی تجربی گسترده، جامع و دقیق در مقایسه با ۱۳ فازر روی ۹ بنچمارک مختلف، نشان میدهیم که BertRLFuzzer خودکار، قابل توسعه، پایبند به گرامر، کارا و مؤثر است. این ابزار برای توسعهدهندگان برنامهها بسیار مفید است، به ویژه زمانی که نوشتن فازرهای جهشمحافظِ گرامری بهصورت دستی زمانبر، مستعد خطا و پرهزینه است.
علاوه بر این، ابزار ما بهویژه در سناریوهایی مؤثر است که توسعهدهندگان برنامه ممکن است سنیتایزرهایی بر اساس بردارهای حمله ساده نوشته باشند و ترکیبهای پیچیده را نادیده گرفته باشند. در مقابل، با داشتن مجموعه داده کافی از بردارهای حمله ساده، BertRLFuzzer قادر است ترکیبهای پیچیده الگوهای حمله را بیاموزد و ضعفهای سنیتایزرها را بهصورت هئوریستیک و کارآمد شناسایی کند.
تا آنجا که ما اطلاع داریم، هیچ فازر مبتنی بر یادگیری ماشین دیگری از معماری BERT و الگوریتم مبتنی بر RL برای حل این مشکل استفاده نمیکند — مشکلی که معمولاً کاربران فازر را مجبور میکند تا ابزارها را برای پایبندی به گرامر برنامههای قربانی اصلاح کنند یا الگوهای بردار حمله را فراهم نمایند، که فرآیندی پیچیده، پرهزینه و مستعد خطا است. همچنین، ما از هیچ فازر دیگری اطلاع نداریم که بدون دخالت انسانی قابل توسعه باشد.
در کارهای آینده، میتوان از جستجوی درختی مونتکارلو (MCTS) (Browne et al. 2012) برای اکتشاف بهتر فضای جستوجو استفاده کرد، مشابه کاری که در موتورهای بازی خودبازیکن محبوب انجام میشود (Silver et al. 2018). علاوه بر این، رویکرد ما میتواند برای ارزیابی انواع مختلف نرمافزارهایی که به ورودیهای ساختاریافته وابستهاند، از جمله ولی نه محدود به کامپایلرها، حلکنندههای SMT و خوانندههای PDF نیز بهکار گرفته شود.
[1] Grammar‑Preserving black‑box fuzzers
منابع
Allamanis and Sutton (2013) Allamanis, M.; and Sutton, C. 2013. Mining source code repositories at massive scale using language modeling. In 2013 10th working conference on mining software repositories (MSR), 207–216. IEEE.
Appelt et al. (2014) Appelt, D.; Nguyen, C. D.; Briand, L. C.; and Alshahwan, N. 2014. Automated testing for SQL injection vulnerabilities: an input mutation approach. In Proceedings of the 2014 International Symposium on Software Testing and Analysis, 259–269.
Becker et al. (2010) Becker, S.; Abdelnur, H.; Engel, T.; et al. 2010. An autonomic testing framework for IPv6 configuration protocols. In IFIP International Conference on Autonomous Infrastructure, Management and Security, 65–76. Springer.
Bommasani et al. (2021) Bommasani, R.; Hudson, D. A.; Adeli, E.; Altman, R.; Arora, S.; von Arx, S.; Bernstein, M. S.; Bohg, J.; Bosselut, A.; Brunskill, E.; et al. 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
Böttinger, Godefroid, and Singh (2018) Böttinger, K.; Godefroid, P.; and Singh, R. 2018. Deep reinforcement fuzzing. In 2018 IEEE Security and Privacy Workshops (SPW), 116–122. IEEE.
Bozic et al. (2015) Bozic, J.; Garn, B.; Simos, D. E.; and Wotawa, F. 2015. Evaluation of the IPO-family algorithms for test case generation in web security testing. In 2015 IEEE Eighth International Conference on Software Testing, Verification and Validation Workshops (ICSTW), 1–10. IEEE.
Brown et al. (2020) Brown, T.; Mann, B.; Ryder, N.; Subbiah, M.; Kaplan, J. D.; Dhariwal, P.; Neelakantan, A.; Shyam, P.; Sastry, G.; Askell, A.; et al. 2020. Language models are few-shot learners. Advances in neural information processing systems, 33: 1877–1901.
Browne et al. (2012) Browne, C. B.; Powley, E.; Whitehouse, D.; Lucas, S. M.; Cowling, P. I.; Rohlfshagen, P.; Tavener, S.; Perez, D.; Samothrakis, S.; and Colton, S. 2012. A survey of monte carlo tree search methods. IEEE Transactions on Computational Intelligence and AI in games, 4(1): 1–43.
Chen et al. (2021) Chen, M.; Tworek, J.; Jun, H.; Yuan, Q.; Pinto, H. P. d. O.; Kaplan, J.; Edwards, H.; Burda, Y.; Joseph, N.; Brockman, G.; et al. 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
Chowdhery et al. (2022) Chowdhery, A.; Narang, S.; Devlin, J.; Bosma, M.; Mishra, G.; Roberts, A.; Barham, P.; Chung, H. W.; Sutton, C.; Gehrmann, S.; et al. 2022. Palm: Scaling language modeling with pathways. arXiv preprint arXiv:2204.02311.
Devlin et al. (2018) Devlin, J.; Chang, M.-W.; Lee, K.; and Toutanova, K. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Drozd and Wagner (2018) Drozd, W.; and Wagner, M. D. 2018. Fuzzergym: A competitive framework for fuzzing and learning. arXiv preprint arXiv:1807.07490.
Duchene (2013) Duchene, F. 2013. Fuzz in the dark: genetic algorithm for black-box fuzzing. In Black-Hat.
Erdodi, Sommervoll, and Zennaro (2021) Erdodi, L.; Sommervoll, Å. Å.; and Zennaro, F. M. 2021. Simulating SQL Injection Vulnerability Exploitation Using Q-Learning Reinforcement Learning Agents. arXiv preprint arXiv:2101.03118.
Fang and Yan (2018) Fang, K.; and Yan, G. 2018. Emulation-instrumented fuzz testing of 4G/LTE android mobile devices guided by reinforcement learning. In European Symposium on Research in Computer Security, 20–40. Springer.
Fang et al. (2018) Fang, Y.; Li, Y.; Liu, L.; and Huang, C. 2018. DeepXSS: Cross site scripting detection based on deep learning. In Proceedings of the 2018 international conference on computing and artificial intelligence, 47–51.
Feng et al. (2020) Feng, Z.; Guo, D.; Tang, D.; Duan, N.; Feng, X.; Gong, M.; Shou, L.; Qin, B.; Liu, T.; Jiang, D.; et al. 2020. Codebert: A pre-trained model for programming and natural languages. arXiv preprint arXiv:2002.08155.
Foundation (2022) Foundation, O. 2022. Open Web Application Security Project (OWASP).
Gerlich and Prause (2020) Gerlich, R.; and Prause, C. R. 2020. Optimizing the parameters of an evolutionary algorithm for fuzzing and test data generation. In 2020 IEEE International Conference on Software Testing, Verification and Validation Workshops (ICSTW), 338–345. IEEE.
Ghanem and Chen (2020) Ghanem, M. C.; and Chen, T. M. 2020. Reinforcement learning for efficient network penetration testing. Information, 11(1): 6.
Group (2022a) Group, N. L. T. 2022a. Natural Language Toolkit.
Group (2022b) Group, S. 2022b. SQLmap.
Guo et al. (2020) Guo, D.; Ren, S.; Lu, S.; Feng, Z.; Tang, D.; Liu, S.; Zhou, L.; Duan, N.; Svyatkovskiy, A.; Fu, S.; et al. 2020. Graphcodebert: Pre-training code representations with data flow. arXiv preprint arXiv:2009.08366.
Gupta et al. (2017) Gupta, R.; Pal, S.; Kanade, A.; and Shevade, S. 2017. Deepfix: Fixing common c language errors by deep learning. In Thirty-First AAAI conference on artificial intelligence.
Halfond, Orso, and Manolios (2006) Halfond, W. G.; Orso, A.; and Manolios, P. 2006. Using positive tainting and syntax-aware evaluation to counter SQL injection attacks. In Proceedings of the 14th ACM SIGSOFT international symposium on Foundations of software engineering, 175–185.
Kieyzun et al. (2009) Kieyzun, A.; Guo, P. J.; Jayaraman, K.; and Ernst, M. D. 2009. Automatic creation of SQL injection and cross-site scripting attacks. In 2009 IEEE 31st international conference on software engineering, 199–209. IEEE.
Kuznetsov et al. (2019) Kuznetsov, A.; Yeromin, Y.; Shapoval, O.; Chernov, K.; Popova, M.; and Serdukov, K. 2019. Automated software vulnerability testing using deep learning methods. In 2019 IEEE 2nd Ukraine Conference on Electrical and Computer Engineering (UKRCON), 837–841. IEEE.
Lachaux et al. (2020) Lachaux, M.-A.; Roziere, B.; Chanussot, L.; and Lample, G. 2020. Unsupervised translation of programming languages. arXiv preprint arXiv:2006.03511.
Lemieux et al. (2018) Lemieux, C.; Padhye, R.; Sen, K.; and Song, D. 2018. Perffuzz: Automatically generating pathological inputs. In Proceedings of the 27th ACM SIGSOFT International Symposium on Software Testing and Analysis, 254–265.
Liu, Li, and Chen (2020) Liu, M.; Li, K.; and Chen, T. 2020. DeepSQLi: Deep semantic learning for testing SQL injection. In Proceedings of the 29th ACM SIGSOFT International Symposium on Software Testing and Analysis, 286–297.
Liu et al. (2019a) Liu, X.; Li, X.; Prajapati, R.; and Wu, D. 2019a. Deepfuzz: Automatic generation of syntax valid c programs for fuzz testing. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, 1044–1051.
Liu et al. (2019b) Liu, Y.; Ott, M.; Goyal, N.; Du, J.; Joshi, M.; Chen, D.; Levy, O.; Lewis, M.; Zettlemoyer, L.; and Stoyanov, V. 2019b. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692.
Manes et al. (2018) Manes, V. J.; Han, H.; Han, C.; Cha, S. K.; Egele, M.; Schwartz, E. J.; and Woo, M. 2018. The art, science, and engineering of fuzzing: A survey. arXiv preprint arXiv:1812.00140.
Manès, Kim, and Cha (2020) Manès, V. J.; Kim, S.; and Cha, S. K. 2020. Ankou: Guiding grey-box fuzzing towards combinatorial difference. In Proceedings of the ACM/IEEE 42nd International Conference on Software Engineering, 1024–1036.
Mastropaolo et al. (2021) Mastropaolo, A.; Scalabrino, S.; Cooper, N.; Palacio, D. N.; Poshyvanyk, D.; Oliveto, R.; and Bavota, G. 2021. Studying the usage of text-to-text transfer transformer to support code-related tasks. In 2021 IEEE/ACM 43rd International Conference on Software Engineering (ICSE), 336–347. IEEE.
Mnih et al. (2015) Mnih, V.; Kavukcuoglu, K.; Silver, D.; Rusu, A. A.; Veness, J.; Bellemare, M. G.; Graves, A.; Riedmiller, M.; Fidjeland, A. K.; Ostrovski, G.; et al. 2015. Human-level control through deep reinforcement learning. nature, 518(7540): 529–533.
Mou et al. (2016) Mou, L.; Li, G.; Zhang, L.; Wang, T.; and Jin, Z. 2016. Convolutional neural networks over tree structures for programming language processing. In Thirtieth AAAI conference on artificial intelligence.
OpenAI (2023) OpenAI. 2023. ChatGPT.
Saavedra et al. (2019) Saavedra, G. J.; Rodhouse, K. N.; Dunlavy, D. M.; and Kegelmeyer, P. W. 2019. A review of machine learning applications in fuzzing. arXiv preprint arXiv:1906.11133.
Sarraute, Buffet, and Hoffmann (2013) Sarraute, C.; Buffet, O.; and Hoffmann, J. 2013. Penetration testing== pomdp solving? arXiv preprint arXiv:1306.4714.
Schulman et al. (2017) Schulman, J.; Wolski, F.; Dhariwal, P.; Radford, A.; and Klimov, O. 2017. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.
Scott et al. (2021) Scott, J.; Sudula, T.; Rehman, H.; Mora, F.; and Ganesh, V. 2021. Banditfuzz: Fuzzing smt solvers with multi-agent reinforcement learning. In International Symposium on Formal Methods, 103–121. Springer.
Silver et al. (2018) Silver, D.; Hubert, T.; Schrittwieser, J.; Antonoglou, I.; Lai, M.; Guez, A.; Lanctot, M.; Sifre, L.; Kumaran, D.; Graepel, T.; et al. 2018. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science, 362(6419): 1140–1144.
Sutton and Barto (2018) Sutton, R. S.; and Barto, A. G. 2018. Reinforcement learning: An introduction. MIT press.
Thomé, Gorla, and Zeller (2014) Thomé, J.; Gorla, A.; and Zeller, A. 2014. Search-based security testing of web applications. In Proceedings of the 7th International Workshop on Search-Based Software Testing, 5–14.
Vaswani et al. (2017) Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A. N.; Kaiser, Ł.; and Polosukhin, I. 2017. Attention is all you need. In Advances in neural information processing systems, 5998–6008.
Verme et al. (2021) Verme, M. D.; Sommervoll, Å. Å.; Erdődi, L.; Totaro, S.; and Zennaro, F. M. 2021. SQL Injections and Reinforcement Learning: An Empirical Evaluation of the Role of Action Structure. In Nordic Conference on Secure IT Systems, 95–113. Springer.
Vermorel and Mohri (2005) Vermorel, J.; and Mohri, M. 2005. Multi-armed bandit algorithms and empirical evaluation. In European conference on machine learning, 437–448. Springer.
Wolf et al. (2019) Wolf, T.; Debut, L.; Sanh, V.; Chaumond, J.; Delangue, C.; Moi, A.; Cistac, P.; Rault, T.; Louf, R.; Funtowicz, M.; et al. 2019. Huggingface’s transformers: State-of-the-art natural language processing. arXiv preprint arXiv:1910.03771.
Zalewski (2015) Zalewski, M. 2015. American Fuzzing Lop.
Zennaro and Erdodi (2020) Zennaro, F. M.; and Erdodi, L. 2020. Modeling penetration testing with reinforcement learning using capture-the-flag challenges and tabular Q-learning. arXiv preprint arXiv:2005.12632.
Zhou et al. (2021) Zhou, S.; Liu, J.; Hou, D.; Zhong, X.; and Zhang, Y. 2021. Autonomous penetration testing based on improved deep q-network. Applied Sciences, 11(19): 8823.