جون لی، بودونگ ژائو و چائو ژنگ*
چکیده
آسیب پذیریهای امنیتی یکی از علل اصلی تهدیدات سایبری میباشند. پژوهشگران برای کشف و رفع این آسیب پذیریها، روشهای مختلفی را پیشنهاد دادهاند که در این میان، فازینگ به عنوان یکی از پرکاربردترین تکنیکها شناخته میشود. در سالهای اخیر، راه حلهای فازینگ، مانند AFL، پیشرفتهای چشمگیری در کشف آسیب پذیریها داشتهاند. این مقاله به خلاصهای از پیشرفتهای اخیر میپردازد، تحلیل میکند که چگونه این پیشرفتها فرآیند فازینگ را بهبود میبخشند و به آینده کار در زمینه فازینگ توجه میکند.
ابتدا دلایل محبوبیت فازینگ را با مقایسه تکنیکهای مختلف کشف آسیب پذیری تحلیل میکنیم. سپس راه حلهای فازینگ را ارائه میدهیم و به تفصیل یکی از رایجترین انواع فازینگ یعنی فازینگ مبتنی بر پوشش (coverage-based fuzzing) را مورد بررسی قرار میدهیم. در ادامه تکنیکهای دیگری که میتوانند فرآیند فازینگ را هوشمندتر و کارآمدتر سازند، معرفی میکنیم. سرانجام، برخی از کاربردهای فازینگ را نشان میدهیم و روندهای جدید فازینگ و جهتگیریهای بالقوه آینده را مورد بحث قرار میدهیم.
کلیدواژهها:
کشف آسیب پذیری، امنیت نرم افزار، فازینگ، فازینگ مبتنی بر پوشش
مقدمه
آسیب پذیریها به یک علت اصلی تهدیدات علیه امنیت فضای سایبر تبدیل شدهاند. طبق تعریف در (RFC 2828 شایری 2000)، آسیب پذیری یک نقص یا ضعف در طراحی، پیادهسازی یا عملیات و مدیریت یک سیستم است که میتواند مورد سو استفاده قرار گیرد تا سیاستهای امنیتی سیستم را نقض کند.
حمله به آسیب پذیریها، به ویژه آسیب پذیریهای روز صفر (zero-day vulnerabilities) ، میتواند منجر به خسارات جدی شود. حمله باجافزار WannaCry ویکیپدیا و حمله باجافزاری WannaCry 2017 که در ماه مه 2017 رخ داد و از یک آسیب پذیری در پروتکل Server Message Block (SMB) سوءاستفاده کرد، گزارش شده است که در یک روز، بیش از 230,000 کامپیوتر در بیش از 150 کشور را آلوده کرده است. این حمله باعث بروز مشکلات جدی در مدیریت بحران و خسارات هنگفتی به صنایع مختلف مانند مالی، انرژی و درمان پزشکی شده است.
با توجه به خسارات جدی ناشی از آسیب پذیریها، تلاشهای زیادی به تکنیکهای کشف آسیب پذیری در نرمافزارها و سیستمهای اطلاعاتی اختصاص یافته است. تکنیکهایی از جمله تحلیل استاتیک، تحلیل دینامیک، اجرای نمادین و فازینگ (لیو و همکاران 2012) پیشنهاد شدهاند. فازینگ نسبت به سایر تکنیکها، نیاز به دانش کمی درباره اهداف دارد و به راحتی میتواند به برنامههای بزرگ مقیاسپذیر تبدیل شود، به همین دلیل به محبوبترین راه حل کشف آسیب پذیری، به ویژه در صنعت، تبدیل شده است.
مفهوم فازینگ برای اولین بار در دهه 1990 مطرح شد (وو و همکاران 2010). اگرچه این مفهوم در طول دههها توسعه ثابت باقی مانده است، اما نحوه اجرای فازینگ به طور قابل توجهی تکامل یافته است. از سوی دیگر، سالها تجربه نشان میدهد که فازینگ معمو لا در مراحل اولیه، نقصهای ساده در فساد حافظه را پیدا میکند و به نظر میرسد که تنها بخش بسیار کوچکی از کد هدف را پوشش میدهد. علاوه بر این، تصادفی بودن و عدم جهتگیری فازینگ منجر به کارایی پایین در شناسایی باگها میشود. به همین دلیل، راه حلهای متعددی برای بهبود اثربخشی و کارآیی فازینگ پیشنهاد شده است.
ترکیب حالت فازینگ مبتنی بر بازخورد و الگوریتمهای ژنتیک یک چهارچوب فازینگ انعطافپذیرتر و سفارشیسازی شده را ارائه میدهد و فرآیند فازینگ را هوشمندتر و کارآمدتر میسازد. با معرفی AFL ، فازینگ مبتنی بر بازخورد، به ویژه فازینگ هدایت شده توسط پوشش، پیشرفتهای چشمگیری داشته است. بسیاری از راه حلها یا بهبودهای مؤثر الهام گرفته از AFL، به تازگی پیشنهاد شدهاند. فازینگ اکنون با چند سال پیش خود بسیار متفاوت است. از این رو، جمعبندی کارهای اخیر در زمینه فازینگ و بررسی آینده پژوهشها ضروری است.
ما در این مقاله، سعی داریم وضعیت روز فازینگ را خلاصه کنیم و نشان دهیم که چگونه این تکنیکها به بهبود اثربخشی و کارآیی کشف آسیب پذیریها کمک میکنند. همچنین نشان میدهیم که چگونه تکنیکهای سنتی میتوانند به بهبود اثربخشی و کارآیی فازینگ کمک کنند و فازرها را هوشمندتر سازند. سپس، مروری بر نحوه شناسایی آسیب پذیریهای مختلف اهداف، از جمله برنامههای نرم افزاری فرمت فایل، هستهها و پروتکلها ارائه میدهیم. در نهایت، سعی داریم تا روندهای جدید توسعه تکنیک فازینگ را بیان کنیم.
بقیه مقاله به شرح زیر سازماندهی شده است: بخش “زمینه”، دانش زمینهای در مورد تکنیکهای کشف آسیب پذیری را ارائه میدهد. بخش “فازینگ “، مقدمهای دقیق بر فازینگ، شامل مفاهیم بنیادی و چالشهای کلیدی فازینگ را ارائه میدهد. در بخش “فازینگ مبتنی بر پوشش”، فازینگ مبتنی بر پوشش و کارهای مرتبط به روز را معرفی میکنیم. در بخش “تکنیکهای ادغام شده در فازینگ”، خلاصهای از این که چگونه تکنیکهای دیگر میتوانند به بهبود فازینگ کمک کنند را ارائه میدهیم و بخش “فازینگ در برابر برنامههای مختلف” چندین کاربرد فازینگ را معرفی میکند. در بخش “روندهای جدید فازینگ”، ما به بحث و جمعبندی روندهای احتمالی جدید فازینگ میپردازیم و در نهایت، مقاله خود را در بخش “نتیجهگیری” به پایان میرسانیم.
زمینه
در این بخش، مقدمهای مختصر درباره تکنیکهای سنتی کشف آسیب پذیری ارائه میدهیم، از جمله: تحلیل استاتیک، تحلیل دینامیک، تحلیل ردیابی (taint analysis)، اجرای نمادین و فازینگ. سپس مزایا و معایب هر تکنیک را خلاصه میکنیم.
تحلیل استاتیک
تحلیل استاتیک، تحلیلی از برنامهها است که بدون اجرای واقعی برنامهها انجام میشود (ویچمن و همکاران 1995). به جای اینکه روی کد منبع کار شود، تحلیل استاتیک اغلب بر روی کد منبع و گاهی اوقات بر روی کد شیء نیز انجام میشود. با تحلیل ویژگیهای واژهای، نحوی، معنایی و تحلیل جریان دادهها، بررسی مدلها، تحلیل استاتیک میتواند باگهای پنهان را شناسایی کند. مزیت تحلیل استاتیک سرعت بالای تشخیص آن است. یک تحلیلگر میتواند به سرعت کد هدف را با ابزار تحلیل استاتیک بررسی کند و عملیات را به موقع انجام دهد. با این حال، تحلیل استاتیک در عمل دارای نرخ خطای بالایی است. به دلیل کمبود مدلهای ساده برای تشخیص آسیب پذیری، ابزارهای تحلیل استاتیک مستعد تولید تعداد زیادی مثبت کاذب هستند. بنابراین شناسایی نتایج تحلیل استاتیک هنوز کار دشواری باقی میماند.
تحلیل دینامیک
در مقابل تحلیل استاتیک، در تحلیل دینامیک برنامهها، یک تحلیلگر نیاز دارد تا برنامه هدف را در سیستمهای واقعی یا شبیهسازها اجرا کند (ویکیپدیا 2017). با نظارت بر وضعیتهای در حال اجرا و تحلیل دانش زمان اجرا، ابزارهای تحلیل دینامیک میتوانند باگهای برنامه را به دقت شناسایی کنند. مزیت تحلیل دینامیک، دقت بالای آن است، در حالی که معایب زیر نیز وجود دارد. اول، اشکالزدایی، تحلیل و اجرای برنامههای هدف در تحلیل دینامیک نیاز به دخالت انسانی زیادی دارد و منجر به کارایی پایین میشود. علاوه بر این، دخالت انسانی نیاز به مهارتهای فنی قوی تحلیلگران دارد. به طور خلاصه، تحلیل دینامیک دارای معایب مربوط به کندی است.
سرعت، کارآیی پایین، نیازمندیهای بالا به سطح فنی آزمایشکنندگان، مقیاسپذیری ضعیف و دشواری در اجرای تستهای بزرگ مقیاس از معایب تحلیل دینامیک است.
اجرای نمادین
اجراهای نمادین (کینگ 1976) یک تکنیک دیگر برای کشف آسیب پذیری است که به شدت امیدوارکننده تلقی میشود. با نمادین کردن ورودیهای برنامه، اجرای نمادین مجموعهای از محدودیتها را برای هر مسیر اجرایی حفظ میکند. پس از اجرا، از حل کنندههای محدودیت برای حل این محدودیتها و تعیین اینکه کدام ورودیها باعث اجرای برنامه میشوند، استفاده میگردد. به طور فنی، اجرای نمادین میتواند هر مسیر اجرایی در یک برنامه را پوشش دهد و در تست برنامههای کوچک نتایج خوبی نشان داده است، اما محدودیتهای زیادی نیز دارد. اول، مشکل انفجار مسیر (path explosion) وجود دارد. با بزرگتر شدن مقیاس برنامه، حالات اجرایی به شدت افزایش مییابند که میتواند فراتر از توانایی حل کنندههای محدودیت باشد. اجرای نمادین انتخابی به عنوان یک راه حل موقت پیشنهاد شده است. دوم ،تعاملات محیطی. در اجرای نمادین، وقتی که اجرای برنامه هدف با اجزای خارج از محیطهای اجرای نمادین تعامل دارد، مانند تماسهای سیستمی و پردازش سیگنالها، ممکن است مشکلات همخوانی بروز کند. کارهای قبلی نشان دادهاند که اجرای نمادین هنوز هم برای مقیاسپذیری در برنامههای بزرگ دشوار است (بومه و همکاران 2017).
فازینگ
فازینگ (ساتن و همکاران 2007) در حال حاضر پرکاربردترین تکنیک کشف آسیب پذیری است. فازینگ برای اولین بار توسط بارتون میلار در دانشگاه ویسکانسین در دهه 1990 مطرح شد. به طور مفهومی، یک تست فازینگ با تولید ورودیهای عادی و غیرعادی در حجم بالا برای برنامههای هدف آغاز میشود و سعی میشود با تغذیه ورودیهای تولید شده به برنامههای هدف و نظارت بر حالتهای اجرایی، استثناها را شناسایی کند. در مقایسه با سایر تکنیکها، فازینگ به راحتی قابل پیاده سازی است و مقیاسپذیری و قابلیت کاربرد خوبی دارد و میتواند با یا بدون کد منبع انجام شود. علاوه بر این، از آنجایی که تست فازینگ در حین اجرای واقعی انجام میشود، دقت بالایی دارد. همچنین، فازینگ نیاز به دانش کمی از برنامههای هدف دارد و به راحتی میتواند به برنامههای بزرگ مقیاسپذیر تبدیل شود.
با اینکه فازینگ با معایب زیادی مانند کارآیی پایین و پوشش کد پایین روبرو است، اما به دلیل مزایای بیشمارش، فازینگ به مؤثرترین و کارآمدترین تکنیک کشف آسیب پذیری به روز تبدیل شده است. جدول 1 مزایا و معایب تکنیکهای مختلف را نشان میدهد.
Scalability | Accuracy | Easy to start? | Technique |
Relatively good | low | easy | Static analysis |
uncertain | high | hard | Dynamic analysis |
bad | high | hard | Symbolic execution |
good | high | easy | Fuzzing |
در این بخش، سعی داریم دیدگاهی درباره فازینگ ارائه دهیم، شامل دانش زمینهای در مورد تکنیکهای بنیادی و چالشهای موجود در بهبود فازینگ. آنها باید بتوانند شرایط خاصی از جمله استثناها و خطاهای غیرمنتظره را ایجاد کند. این مرحله به عنوان مرحله تولید کیسهای تست شناخته میشود.
فرآیند کار فازینگ
شکل 1 فرآیندهای اصلی آزمونهای فازینگ سنتی را نشان میدهد. فرآیند کار شامل چهار مرحله اصلی است: مرحله تولید کیسهای تست، مرحله اجرای کیسهای تست، نظارت بر وضعیت اجرایی برنامه و تحلیل استثناها.
یک آزمون فازینگ از تولید مجموعهای از ورودیهای برنامه، یعنی کیسهای تست، آغاز میشود. کیفیت کیسهای تست تولید شده به طور مستقیم بر اثرات آزمون تأثیر میگذارد. ورودیها باید تا حد ممکن با الزامات برنامههای آزمایش شده برای فرمت ورودی سازگار باشند. از سوی دیگر، ورودیها باید به اندازه کافی خراب باشند تا پردازش بر روی آنها بتواند شرایط خاصی از جمله استثناها و خطاهای غیرمنتظره را ایجاد کند.
این ورودیها احتمالا باعث شکست برنامه خواهند شد. بسته به برنامههای هدف، ورودیها میتوانند فایلهایی با فرمتهای مختلف، دادههای ارتباطات شبکه، باینریهای اجرایی با ویژگیهای مشخص و غیره باشند. ایجاد کیسهای تست به اندازه کافی خراب، چالش اصلی برای فازرها است. به طور کلی، دو نوع تولیدکننده در فازرهای به روز استفاده میشود: تولیدکنندههای مبتنی بر تولید و تولیدکنندههای مبتنی بر جهش.
کیسهای تست پس از تولید در مرحله قبلی به برنامههای هدف داده میشوند. فازرها به طور خودکار فرآیند برنامه هدف را شروع و به پایان میرسانند و فرآیند پردازش کیسهای تست برنامههای هدف را کنترل میکنند. تحلیلگران میتوانند قبل از اجرا، نحوه شروع و پایان برنامههای هدف را پیکربندی کنند و پارامترها و متغیرهای محیطی را از پیش تعریف کنند. فرآیند فازینگ معمولا در یک زمانسنج از پیش تعیین شده متوقف میشود، یا اجرای برنامه متوقف میگردد یا کرش میکند.
فازرها در حین اجرای برنامههای هدف، وضعیت اجرای آن را نظارت میکنند و منتظر استثناها و کرشها هستند. روشهای معمول نظارت بر استثنا شامل نظارت بر سیگنالهای سیستمی خاص، کرشها و سایر نقایص است. برای نقایص بدون رفتارهای غیرعادی واضح در برنامه، ابزارهای زیادی میتوانند استفاده شوند، از جمله AddressSanitizer (سرابیانی و همکاران 2012)، DataFlowsanitizer (تیم کلنگ 2017 ،)، ThreadSanitizer (سرابیانی و اسخودجانوف 2009)، LeakSanitizer (تیم کلنگ 2017) و غیره. زمانی که نقایص ثبت میشوند، فازرها کیس تست مربوطه را برای پخش و تحلیل بعدی ذخیره میکنند.
تحلیلگران در مرحله تحلیل، سعی میکنند مکان و علت اصلی نقایص ثبت شده را تعیین کنند. این تحلیل غالبا با کمک اشکالزداها انجام میشود، مانند windbg ،GDB، یا سایر ابزارهای تحلیل باینری، مانند OllyDbg ،IDA Pro و غیره. ابزارهای سازگاری باینری، مانند Pin (لوک و همکاران 2005) نیز میتوانند برای نظارت بر وضعیت دقیق اجرای کیسهای تست جمعآوری شده، مانند اطلاعات مربوط به رشته، دستورها، اطلاعات رجیستر و غیره استفاده شوند. تحلیل کرش به طور خودکار زمینه مهم دیگری از تحقیق است.
انواع فازرها
فازرها میتوانند به طرق مختلفی طبقهبندی شوند. یک فازر میتواند به عنوان فازر مبتنی بر تولید و فازر مبتنی بر جهش (وان اسپراندل 2005) طبقه بندی شود. برای یک فازر مبتنی بر تولید، دانش ورودی برنامه مورد نیاز است. برای آزمایش فرمت فایل، معمولا یک فایل پیکربندی که فرمت فایل را از پیش تعریف میکند، ارائه میشود. کیسهای تست بر اساس فایل پیکربندی تولید میشوند. با داشتن دانش فرمت فایل، کیسهای تست تولید شده توسط فازرهای مبتنی بر تولید قادر به عبور از اعتبارسنجی برنامهها به راحتی هستند و بیشتر به احتمال زیاد میتوانند کد عمیقتر برنامههای هدف را آزمایش کنند. با این حال، بدون وجود مستندات مناسب، تجزیه و تحلیل فرمت فایل کار دشواری است. بنابراین، فازرهای مبتنی بر جهش راهاندازی آسانتری دارند و کاربردیتر هستند و به طور گستردهای توسط فازرهای به روز استفاده میشوند.
فازرهای مبتنی بر جهش به یک مجموعه ورودیهای اولیه معتبر نیاز دارند. کیسهای تست از طریق جهش ورودیهای اولیه و کیسهای تست تولید شده در طول فرآیند فازینگ تولید میشوند. ما فازرهای مبتنی بر تولید و فازرهای مبتنی بر جهش را در جدول 2 مقایسه میکنیم.
با توجه به وابستگی به کد منبع برنامه و درجه تحلیل برنامه، فازرها میتوانند به سه دسته تقسیم شوند: فازرهای جعبه سفید، جعبه خاکستری و جعبه سیاه. فازرهای جعبه سفید فرض میکنند که به کد منبع برنامهها دسترسی دارند، بنابراین اطلاعات بیشتری را میتوان از طریق تحلیل کد منبع و اینکه چگونه کیسهای تست بر وضعیت اجرای برنامه تأثیر میگذارند، جمعآوری کرد. فازرهای جعبه سیاه آزمونهای فازینگ را بدون هیچگونه دانشی از جزئیات داخلی برنامه هدف انجام میدهند. فازرهای جعبه خاکستری نیز بدون کد منبع کار میکنند و اطلاعات داخلی برنامههای هدف را از طریق تحلیل برنامه بهدست میآورند. ما برخی از فازرهای معمول جعبه سفید، جعبه خاکستری و جعبه سیاه را در جدول 3 فهرست میکنیم.
با توجه به استراتژیهای اکتشاف برنامهها، فازرها میتوانند به دو دسته فازینگ هدفدار و فازینگ مبتنی بر پوشش تقسیم شوند. فازر هدفدار، هدف از تولید کیسهای تستی است که کد هدف و مسیرهای هدف برنامهها را پوشش دهد، و فازر مبتنی بر پوشش، هدف از تولید کیسهای تستی است که تا حد امکان کد بیشتری از برنامهها را پوشش دهد. فازرهای هدفدار به یک آزمون سریعتر روی برنامهها انتظار دارند، و فازرهای مبتنی بر پوشش به یک آزمون دقیقتر و شناسایی هر چه بیشتر اشکالات امید دارند. استخراج اطلاعات مسیرهای اجرایی شده برای هر دو فازر هدفدار و فازرهای مبتنی بر پوشش، یک مشکل کلیدی به شمار میرود.
فازرها میتوانند به دو دسته فازرهای سطحی و فازرهای هوشمند بر اساس وجود یا عدم وجود بازخورد بین نظارت بر وضعیت اجرای برنامه و تولید کیسهای تست تقسیم شوند. فازرهای هوشمند، تولید کیسهای تست را بر اساس اطلاعات جمعآوری شده در مورد اینکه چگونه کیسهای تست بر رفتار برنامه تأثیر میگذارند، تنظیم میکنند. برای فازرهای مبتنی بر جهش، اطلاعات بازخورد میتواند برای تعیین اینکه کدام بخش از کیسهای تست باید جهش یابد و نحوه جهش آنها استفاده شود. فازرهای سطحی سرعت آزمون بهتری را به دست میآورند، در حالی که فازرهای هوشمند کیسهای تست بهتری تولید کرده و کارایی بهتری به دست میآورند.
چالشهای کلیدی در فازینگ
فازرهای سنتی معمولا در عمل از یک استراتژی فازینگ مبتنی بر تصادف استفاده میکنند. محدودیتهای تحلیل برنامه فازرهای مبتنی بر جهش به یک مجموعه ورودیهای اولیه معتبر نیاز دارند. کیسهای تست از طریق جهش ورودیهای اولیه و کیسهای تست تولید شده در طول فرآیند فازینگ تولید میشوند. ما فازرهای مبتنی بر تولید و فازرهای مبتنی بر جهش را در جدول 2 مقایسه میکنیم.
جدول 2. مقایسه فازرهای مبتنی بر تولید و فازرهای مبتنی بر جهش
Ability to Pass Validation | Coverage | Prior Knowledge | Esay to Start? | |
Strong | High | Needed, hard to acquire | Hard | Generation Based |
Weak | Low, affected by initial inputs | Not Needed | Easy | Mutation Based |
جدول 3. فازرهای جعبه سفید، جعبه خاکستری و جعبه سیاه رایج
Black Box Fuzzers | Gray Box Fuzzers | White Box Fuzzers | |
Spike (Bowne 2015), Sulley (Amini 2017), Peach (PeachTech 2017) | Generation Based | ||
Sage (Godefroid et al. 2012), Libfuzzer (libfuzzer 2017) | AFL (Zalewski 2017a), Driller (Stephens et al. 2016), Vuzzer (Rawat et al. 2017), TaintScope (Wang et al. 2010), Mayhem (Cha et al. 2012) | Miller (Takanen et al. 2008) | Mutation Based |
چالش نحوه جهش ورودیهای اولیه. استراتژی تولید مبتنی بر جهش به طور گستردهای توسط فازرهای پیشرفته به دلیل سهولت و تنظیم آسان استفاده میشود. با این حال، چالش کلیدی این است که چگونه جهش ایجاد و کیسهای تستی تولید کنیم که قادر به پوشش مسیرهای بیشتری از برنامه باشند و آسانتر اشکالات را تحریک کنند (یانگ و همکاران 2007). به طور خاص، فازرهای مبتنی بر جهش نیاز به پاسخ به دو سوال هنگام انجام جهش دارند: (1) کجا جهش ایجاد کنیم، و (2) چگونه جهش ایجاد کنیم. جهش فقط در چند موقعیت کلیدی میتواند بر جریان کنترل اجرای برنامه تأثیرگذار باشد. بنابراین، چگونگی شناسایی این موقعیتهای کلیدی در کیسهای تست، اهمیت زیادی دارد. علاوه بر این، نحوه جهش فازرها در موقعیتهای کلیدی یک مشکل کلیدی دیگر است، یعنی چگونه میتوانیم مقداری را تعیین کنیم که بتواند آزمایش را به مسیرهای جالب برنامهها هدایت کند. به طور خلاصه، جهش کور در کیسهای تست منجر به هدررفت شدید منابع آزمایش میشود و یک استراتژی جهش بهتر میتواند به طور چشمگیری کارایی فازینگ را بهبود بخشد.
چالش پوشش کم کد. پوشش بالاتر کد نشان دهنده پوشش بیشتر وضعیتهای اجرایی برنامه و آزمایش جامعتری است. کارهای قبلی ثابت کردهاند که پوشش بهتر منجر به افزایش احتمال پیدا کردن اشکالات میشود. با این حال، بیشتر کیسهای تست فقط مسیرهای مشابهی را پوشش میدهند، در حالی که بیشتر کد قابل دسترسی نیست. در نتیجه، دستیابی به پوشش بالا تنها از طریق تولید مقادیر زیادی از کیسهای تست و صرف منابع آزمایش، انتخاب عاقلانهای نیست. فازرهای مبتنی بر پوشش تلاش میکنند این مشکل را با کمک تکنیکهای تحلیل برنامه، مانند ابزارسازی برنامه، حل کنند. ما جزئیات این موضوع را در بخش بعدی معرفی خواهیم کرد.
چالش عبور از اعتبارسنجی. برنامهها معمولا قبل از تجزیه و پردازش ورودیها، اعتبار آنها را بررسی میکنند. اعتبارسنجی به عنوان یک محافظ برای برنامهها عمل میکند و در منابع محاسباتی صرفه جویی کرده و برنامه را در برابر ورودیهای نامعتبر و آسیبهای ناشی از ورودیهای بدخواهانه محافظت میکند. ورودیهای نامعتبر معمولا نادیده گرفته شده یا دور ریخته میشوند.
اعداد جادویی، رشتههای جادویی، بررسی شماره نسخه و checksumها از جمله اعتبارسنجیهای متداولی هستند که در برنامهها استفاده میشوند. کیسهای تست تولید شده توسط فازرهای جعبه سیاه و جعبه خاکستری به خاطر استراتژی تولید کور، سختتر میتوانند از اعتبارسنجی عبور کنند که منجر به کارایی پایین فازینگ میشود. بنابراین، چگونگی عبور از اعتبارسنجی یک چالش کلیدی دیگر است.
روشهای مختلفی به عنوان تدابیر مقابله با این چالشها پیشنهاد شدهاند و تکنیکهای سنتی، مانند ابزارسازی برنامه و تحلیل آلودگی و همچنین تکنیکهای جدیدی، مانند RNN و LSTM (گودفروید و همکاران 2017 ، راجپال و همکاران 2017) در این زمینه مطرح هستند. اینکه چگونه این تکنیکها میتوانند به چالشها پاسخ دهند در بخش “تکنیکهای ادغام شده در فازینگ “مورد بحث قرار خواهد گرفت.
فازینگ مبتنی بر پوشش
استراتژی فازینگ مبتنی بر پوشش به طور گستردهای توسط فازرهای پیشرفته استفاده میشود و به طور مؤثری ثابت شده است. برای دستیابی به فازینگ عمیق و جامع برنامه، فازرها باید سعی کنند تا حد امکان به بیشتر وضعیتهای اجرایی برنامه دسترسی پیدا کنند. با این حال، به دلیل عدم قطعیت در رفتارهای برنامه، یک متریک ساده برای وضعیتهای برنامه وجود ندارد. علاوه بر این، یک متریک خوب باید در حین اجرای فرآیند به راحتی قابل تعیین باشد. بنابراین، اندازه گیری پوشش کد تبدیل به یک راه حل تقریبا جایگزین میشود. با استفاده از این طرح، افزایش پوشش کد نمایانگر وضعیتهای جدید برنامه است. علاوه بر این، با استفاده از ابزارسازی داخلی و خارجی، پوشش کد به راحتی قابل اندازه گیری است. با این حال، ما میگوییم که پوشش کد یک اندازه گیری تقریبی است، زیرا در واقع، پوشش ثابت کد نشان دهنده تعداد ثابتی از وضعیتهای برنامه نیست. ممکن است در این متریک، اطلاعاتی از بین برود. ما در این بخش، AFL را به عنوان یک مثال در نظر میگیریم و بر روی فازینگ مبتنی بر پوشش روشنایی میاندازیم.
شمارش پوشش کد
در تحلیل برنامه، برنامه از بلوکهای اساسی تشکیل شده است. بلوکهای اساسی، قطعات کدی هستند که دارای یک نقطه ورودی و خروجی هستند، و دستورات در بلوکهای اساسی به صورت ترتیبی اجرا میشوند و فقط یک بار اجرا میشوند. روشهای پیشرفته در اندازه گیری پوشش کد، بلوکهای اساسی را به عنوان بهترین جزئیات در نظر میگیرند. دلایل این انتخاب شامل این است که (1) بلوکهای اساسی کوچکترین واحدهای منسجم اجرای برنامه هستند، (2) اندازه گیری تابع یا دستور منجر به از دست رفتن یا اضافه کاری اطلاعات میشود، (3) بلوکهای اساسی میتوانند با استفاده از آدرس اولین دستور شناسایی شوند و اطلاعات بلوکهای اساسی به راحتی از طریق ابزارسازی کد استخراج شوند.
در حال حاضر، دو گزینه اندازه گیری اساسی بر اساس بلوکهای اساسی وجود دارد، یکی شمارش ساده بلوکهای اساسی اجرایی و دیگری شمارش انتقالات بلوکهای اساسی. در روش دوم، برنامهها به عنوان یک گراف تفسیر میشوند و رئوس برای نمایش بلوکهای اساسی و لبهها برای نمایش انتقالات بین آنها استفاده میگردند.
انتقال بین بلوکهای اساسی با استفاده از لبهها نمایش داده میشود. روش دوم لبهها را ثبت میکند در حالی که روش اول رئوس را ثبت میکند. در حالی که آزمایش نشان میدهد که شمارش ساده بلوکهای اساسی اجرایی منجر به از دست دادن اطلاعات جدی میشود. همانطور که در شکل 2 نشان داده شده است، چنانچه مسیر برنامه BB4 ،BB3 ،BB2 ،BB1 ابتدا اجرا شود و سپس مسیر BB4 ،BB2 ،BB1 در حین اجرا مواجه شود، اطلاعات لبه جدید BB4 ،BB2 از دست خواهد رفت.
AFL اولین کسی است که روش اندازه گیری لبه را به فازینگ مبتنی بر پوشش معرفی کرده است. ما AFL را به عنوان یک مثال در نظر میگیریم و نشان میدهیم که چگونه فازرهای مبتنی بر پوشش در طول فرآیند فازینگ اطلاعات پوشش را به دست میآورند. AFL اطلاعات پوشش را از طریق ابزارسازی سبک برنامه به دست میآورد. بسته به اینکه آیا کد منبع ارائه شده است یا خیر، AFL دو حالت ابزارسازی را ارائه میدهد: ابزارسازی در زمان کامپایل و ابزارسازی خارجی. در حالت ابزارسازی در زمان کامپایل، AFL هر دو حالت gcc و llvm را ارائه میدهد، که بسته به کامپایلری که استفاده میشود، قطعه کد را هنگام تولید باینری ابزارسازی میکند. در حالت خارجی، AFL حالت qemu را ارائه میدهد که در آن، قطعه کد هنگام تبدیل بلوکهای اساسی به بلوکهای TCG ابزارسازی میشود. لیست 1 یک طرح از قطعه کد ابزارسازی شده را نشان میدهد (زالفسکی 2017 b).
در ابزارسازی، یک شناسه تصادفی، یعنی متغیر cur_location در بلوکهای اساسی ابزارسازی میشود. متغیر shared_mem آرایهای از حافظه مشترک 64 کیلوبایتی است که هر بایت آن به یک ضربه از یک لبه خاص BB_dst ،BB_src نقشهبرداری شده است. زمانی که یک انتقال بلوک اساسی اتفاق میفتد، یک شماره هش محاسبه میشود و مقدار بایت مربوطه در آرایه bitmap بهروزرسانی میشود. شکل 3 نقشهبرداری هش و bitmap را نمایش میدهد.
;cur_location = <COMPILE_TIME_RANDOM>
; shared_mem[cur_location ^ prev_location]++; prev_location = cur_location >> 1
لیست 1. ابزارسازی AFL
فرآیند کاری فازینگ مبتنی بر پوشش: الگوریتم 1 فرآیند کاری کلی یک فازر مبتنی بر پوشش را نشان میدهد. آزمایش از ورودیهای اولیه داده شده آغاز میگردد. اگر مجموعه ورودی اولیه داده نشده باشد، فازر یکی را خود ایجاد میکند. در حلقه اصلی فازینگ، فازر به طور مکرر یک ورودی جالب را برای جهشهای بعدی و تولید کیسهای تست انتخاب میکند. برنامه هدف به اجرای کیسهای تستی که تولید شدهاند، تحت نظارت فازر هدایت میشود. کیسهای تستی که منجر به کرش میشوند جمعآوری شده و سایر کیسهای جالب به استخر ورودیها اضافه میشوند. برای فازینگ مبتنی بر پوشش، کیسهای تستی که به لبههای جدید جریان کنترل میرسند، بهعنوان جالب تلقی میشوند. حلقه اصلی فازینگ در یک زمان مشخص شده از پیش یا یک سیگنال قطع متوقف میگردد.
در طول فرآیند فازینگ، فازرها از روشهای مختلف برای پیگیری اجرا استفاده میکنند. اساسا، فازرها برای دو هدف، پوشش کد و نقضهای امنیتی، پیگیری اجرا را انجام میدهند. اطلاعات پوشش کد برای دنبال کردن یک کاوش دقیق از وضعیت برنامه استفاده میشود و پیگیری نقضهای امنیتی برای پیدا کردن بهتر اشکالات است. همانطور که در زیرمجموعههای قبلی جزئیات داده شده، AFL پوشش کد را از طریق ابزارسازی کد و bitmap AFL پیگیری میکند.
پیگیری نقضهای امنیتی میتواند با کمک تعداد زیادی از سمزداییکنندهها انجام شود، مانند AddressSanitizer (سربریان و همکاران 2012)، ThreadSanitizer (سربریان و اسخیصد جانوف 2009)، LeakSanitizer (تیم کلنگ b 2017) و غیره.
شکل 4 فرآیند کاری AFL ، یک فازر مبتنی بر پوشش بسیار نماینده را نشان میدهد. برنامه هدف قبل از اجرا برای جمعآوری پوشش ابزارسازی میشود.
همانطور که قبلا ذکر شد، AFL از هر دو حالت ابزارسازی در زمان کامپایل و ابزارسازی خارجی پشتیبانی میکند، به صورتی که شامل حالتهای gcc/llvm و qemu است. همچنین باید ورودیهای اولیه ارائه شود. در حلقه اصلی فازینگ، (1) فازر یک ورودی دلخواه از استخر ورودیها با توجه به استراتژی انتخاب ورودیها انتخاب میکند و AFL ورودیهایی را که سریعتر و کوچکتر هستند، ترجیح میدهد. (2) فایلهای ورودی با توجه به استراتژی جهش تغییر داده میشوند و تعدادی کیس تست تولید میشوند. AFL در حال حاضر از برخی تغییرات تصادفی و روشهای ترکیب کیس تست شامل معکوسسازی بیتهای متوالی استفاده میکند.
کیسهای تست با طولها و گامهای متفاوت، جمع و تفریق متوالی اعداد کوچک و وارد کردن متوالی اعداد جالب شناخته شده مانند 0، 1، INT_MAX و غیره (زالفسکی b 2017) (3) اجرا میشوند و اجرا تحت پیگیری قرار دارد. اطلاعات پوشش جمعآوری میشود تا کیسهای تست جالب را که به لبههای جدید جریان کنترل میرسند، تعیین کند. کیسهای تست جالب به استخر ورودیها برای دور بعدی اضافه میشوند.
سؤالات کلیدی
معرفی قبلی نشان میدهد که سوالات زیادی باید حل شوند تا فازینگ مبتنی بر پوشش به طور مؤثر و کارآمد انجام گیرد. اکتشافات زیادی در این زمینه انجام شده است. ما برخی از جدیدترین کارها را در این زیرشاخه جمعبندی و فهرست میکنیم، همانطور که در جدول 4 نشان داده شده است.
A. چگونه ورودیهای اولیه را به دست آوریم؟
اکثر فازرهای مبتنی بر پوشش از استراتژی تولید کیس تست مبتنی بر جهش استفاده میکنند که به شدت به کیفیت ورودیهای اولیه وابسته است. ورودیهای اولیه خوب میتوانند به طور قابل توجهی کارایی و اثربخشی فازینگ را بهبود بخشند. به طور خاص (1) ارائه ورودیهای اولیه با فرمت مناسب میتواند زمانهای CPU زیادی را که در ساخت آن صرف میشود، صرفه جویی کند، (2) ورودیهای اولیه مناسب میتوانند نیازهای فرمتهای فایل پیچیده را برآورده کنند که در مرحله جهش سخت است حدس زد، (3) جهش بر اساس ورودیهای اولیه با فرمت مناسب احتمال بیشتری دارد که کیسهای تستی تولید کند که بتوانند به مسیرهای عمیقتر و دشوارتر دسترسی پیدا کنند، (4) ورودیهای اولیه خوب میتوانند در چندین آزمون دوباره استفاده شوند.
روشهای رایج جمع آوری ورودیهای اولیه شامل استفاده از بنچمارکهای استاندارد، جستجودر وب میشوند. برنامههای متن باز معمولا با یک بنچمارک استاندارد منتشر میشوند که برای تست پروژهها به طور رایگان قابل استفاده است. این بنچمارک ارائه شده بر اساس ویژگیها و عملکردهای برنامهها ساخته شده است که طبیعی است که یک مجموعه خوب از ورودیهای اولیه را بسازد. با توجه به تنوع ورودیهای برنامه هدف، جستجو از اینترنت سادهترین روش است. شما میتوانید به راحتی فایلهایی با فرمتهای خاص را دانلود کنید. علاوه بر این، برای برخی از فرمتهای فایل معمولی، پروژههای آزمایشی زیادی در شبکه وجود دارد که مجموعه دادههای آزمایشی رایگان را ارائه میدهند. همچنین، استفاده از نمونههای POC موجود نیز ایده خوبی است. با این حال، تعداد زیاد ورودیهای اولیه باعث هدر رفتن زمان در اولین اجرای آزمایشی میشود، بنابراین نگرانی دیگری به وجود میآید: چگونه ابتدا مجموعه ورودیها را استفاده کنیم. AFL ابزاری را ارائه میدهد که حداقل مجموعهای از ورودیها را استخراج میکند که همان پوشش کد را دست مییابد.
B. چگونه کیسهای تست تولید کنیم؟
کیفیت کیسهای تست یکی از عوامل مهمی است که بر کارایی و اثربخشی تست فازینگ تأثیر میگذارد. اولا، کیسهای تست خوب میتوانند وضعیتهای بیشتری از اجرای برنامه را اکتشاف کرده و کد بیشتری را در زمان کمتری پوشش دهند. علاوه بر این، کیسهای تست خوب میتوانند موقعیتهای آسیبپذیر بالقوه را هدف قرار دهند و کشف سریعتر اشکالات برنامه را به ارمغان آورند. از این رو، اینکه چگونه کیسهای تست خوبی بر مبنای ورودیهای اولیه تولید کنیم، یک نگرانی مهم است.
راوات و همکاران (2017)، Vuzzer را پیشنهاد کردند که یک فازر خاکستری آگاه از برنامه است که با تجزیه و تحلیل استاتیک و دینامیک ترکیب میشود.
جهش ورودیهای اولیه شامل دو سؤال کلیدی است: کجا باید جهش انجام شود و چه مقداری برای جهش استفاده کنیم. به طور خاص، Vuzzer مقادیر فوری، مقادیر جادویی و سایر رشتههای مشخصه را استخراج میکند که کنترل جریان را از طریق تحلیل استاتیک قبل از حلقه اصلی فازینگ تحت تأثیر قرار میدهد. در حین اجرای برنامه، Vuzzer از تکنیک تحلیل آلودگی دینامیک برای جمعآوری اطلاعاتی که بر شاخههای کنترل جریان تأثیر میگذارد، شامل مقدار خاص و جابجایی مربوطه استفاده میکند.
جدول 4. مقایسه تکنیکهای مختلف
Initial inputs get | Inputs mutation | Seed selection | Testing efficiency |
Standard benchmarks; | Vuzzer (Rawat et al. 2017)
| AFLFast (Bohme et al. 2017)
| Forkserver
|
Crawling from Internet;
| Skyfire (Wang et al. 2017)
| Vuzzer | Intel PT (Schumilo et al. 2017)
|
POC samples; | Learn & Fuzz (Godefroid et al. 2017) Faster Fuzzing (Nichols et al. 2017) Work (Rajpal et al. 2017) | AFLGO (2017) QTEP (Wang et al. 2017) SlowFuzz (Petsios et al. 2017) | (Icamtuf 2014) Work (Xu et al. 2017) |
با جهش توسط مقادیر جمعآوری شده و جهش در مکانهای شناسایی شده، Vuzzer میتواند کیسهای تستی تولید کند که احتمالا به شرایط قضاوت شاخه برسند و اعتبارسنجی مقادیر جادویی را پاس کنند. با این حال، Vuzzer هنوز نمیتواند سایر انواع اعتبارسنجیها در برنامهها مانند checksum مبتنی بر هش را پاس کند. علاوه بر این، ابزار Vuzzer، تحلیل آلودگی و حلقه اصلی فازینگ آن بر اساس Pin (لوک و همکاران 2005) پیاده سازی شده است که در مقایسه با AFL سرعت تست نسبتا کندی دارد.
وانگ و همکاران (2017)، یک راه حل تولید ورودی مبتنی بر داده به نام Skyfire را پیشنهاد کردند. Skyfire یک گرامر حساس به زمینه احتمالاتی (PCSG) را از ورودیهای جستجو شده یاد میگیرد و از دانش آموخته شده در تولید ورودیهای ساختار یافته خوب استفاده میکند. آزمایش نشان میدهد که کیسهای تست تولید شده توسط Skyfire کد بیشتری را نسبت به آنهایی که توسط AFL تولید شدهاند پوشش میدهند و اشکالات بیشتری پیدا میکنند. این کار همچنین ثابت میکند که کیفیت کیسهای تست یک عامل مهم است که بر کارایی و اثربخشی فازینگ تأثیر میگذارد.
با توسعه و استفاده گسترده از تکنیکهای یادگیری ماشین، برخی از تحقیقات تلاش کردهاند از تکنیکهای یادگیری ماشین برای کمک به تولید کیسهای تست استفاده کنند. گودفروید و همکاران (2017) از مایکروسافت ریسرچ از تکنیکهای یادگیری ماشین مبتنی بر شبکه عصبی برای تولید خودکار کیسهای تست استفاده میکنند. آنها به طور خاص، ابتدا فرمت ورودی را از یک دسته ورودی معتبر از طریق تکنیکهای یادگیری ماشین یاد میگیرند و سپس از دانش آموخته شده برای هدایت تولید کیسهای تست استفاده میکنند. آنها یک فرآیند فازینگ بر روی تجزیه کننده PDF در مرورگر Edge مایکروسافت ارائه میدهند. اگرچه آزمایش نتیجهای امیدوارکننده ارائه نکرد، این هنوز یک تلاش خوب است.
راجپال و همکاران (2017) از مایکروسافت از شبکههای عصبی برای یادگیری از اکتشافات گذشتۀ فازینگ و پیشبینی اینکه کدام بایت باید در فایلهای ورودی جهش یابد، استفاده میکنند. نیکولز و همکاران (2017) از مدلهای شبکه تقابلی تولید (GAN) برای کمک به راه اندازی مجدد سیستم با فایلهای ورودی نوین استفاده میکنند. آزمایش نشان میدهد که GAN سریعتر و مؤثرتر از LSTM است و به کشف مسیرهای کد بیشتری کمک میکند.
C. چگونه باید ورودی را از استخر انتخاب کرد؟
فازرها به طور مکرر از استخر ورودیها برای جهش در ابتدای هر دور جدید آزمایش در حلقه اصلی فازینگ انتخاب میکنند. نحوه انتخاب ورودی از استخر، مشکل مهم دیگری در فازینگ است. کارهای قبلی ثابت کردهاند که استراتژیهای خوب انتخاب ورودی میتوانند کارایی فازینگ را به طور قابل توجهی بهبود بخشند و به یافتن اشکالات بیشتر و سریعتر کمک کنند (راوات و همکاران 2017؛ بومه و همکاران 2017؛ وانگ و همکاران 2017). با استراتژیهای خوب انتخاب ورودی، فازرها میتوانند: (1) ورودیهایی را که مفیدتر هستند اولویت بندی کنند، شامل پوشش کد بیشتر و احتمال بیشتری در تحریک آسیب پذیریها، (2) هدر رفتن اجرای مکرر مسیرها را کاهش دهند و منابع محاسباتی، (3) انتخاب بهینه ورودیها که کدهای عمیقتر و آسیبپذیرتر را پوشش دهند و به شناسایی آسیبپذیریهای پنهان سریعتر کمک کنند. AFL ورودیهای کوچکتر و سریعتر را ترجیح میدهد تا به سرعت تست بیشتری دست یابد.
بومه و همکاران (2017)، یک فازر خاکستری مبتنی بر پوشش یعنی AFLFast را پیشنهاد کردند. آنها مشاهده کردند که اکثر کیسهای تست بر روی چندین مسیر خاص متمرکز هستند. به عنوان مثال، در یک برنامه پردازش PNG، بیشتر کیسهای تست تولید شده از طریق جهش تصادفی نامعتبر هستند و مسیرهای مدیریت خطا را فعال میکنند. AFLFast مسیرها را به مسیرهای پرت و کم فرکانس تقسیم میکند. AFLFast در طول فرآیند فازینگ، فراوانی مسیرهای اجرا شده را اندازه گیری میکند، ورودیهایی که تعداد کمتری بارها فاز شدهاند را اولویت بندی کرده و انرژی بیشتری به ورودیهایی اختصاص میدهد که مسیرهای کمفراوان را فعال میکند.
راوات و همکاران (2017) تحلیل استاتیک و دینامیک را برای شناسایی مسیرهای عمیقتر و سخت تا دست یابی ترکیب کردند و ورودیهایی که به مسیرهای عمیقتر میرسند را اولویت بندی کردند. استراتژی انتخاب ورودی Vuzzer میتواند به یافتن آسیب پذیریهای پنهان در مسیرهای عمیق کمک کند.
AFLGo (بومه و همکاران 2017) و QTEP (وانگ و همکاران 2017) از یک استراتژی انتخاب هدایت شده استفاده میکنند. AFLGo برخی از کدهای آسیب پذیر را به عنوان مکانهای هدف تعریف میکند و کیسهای تستی را که به مکانهای هدف نزدیکتر هستند به طور بهینه انتخاب میکند. چهار نوع کد آسیب پذیر در مقاله AFLGo ذکر شده است، از جمله patchها، سقوطهای برنامه که اطلاعات ردیابی کافی ندارند، نتایج تأیید شده توسط ابزارهای تحلیل استاتیک و قطعات کد مرتبط با اطلاعات حساس. AFLGo با الگوریتم هدایت شده مناسب، میتواند منابع تست بیشتری را بر روی کدهای جالب اختصاص دهد. QTEP از تحلیل کد استاتیک برای شناسایی کد منبع مستعد خطا استفاده میکند و ورودیهایی را که کدهای معیوب بیشتری را پوشش میدهند، اولویت بندی میکند. هر دو AFLGo و QTEP به شدت به اثربخشی ابزارهای تحلیل استاتیک وابستهاند. با این حال، درصد مثبت کاذب ابزارهای تحلیل استاتیک فعلی هنوز بالا است و نمیتواند تأیید دقیقی را ارائه دهد. ویژگیهای آسیبپذیریهای شناخته شده نیز میتواند در استراتژی انتخاب ورودیها مورد استفاده قرار گیرد. SlowFuzz پتزیوس و همکاران 2017 بر روی آسیب پذیریهای پیچیدگی الگوریتمی تمرکز دارد که معمولا با مصرف بالای منابع محاسباتی همراه است. از این رو SlowFuzz ورودیهایی را که منابع بیشتری مانند زمانهای CPU و حافظه مصرف میکنند، ترجیح میدهد. با این حال، جمعآوری اطلاعات مصرف منابع بار بالایی را به همراه دارد و کارایی فازینگ را کاهش میدهد. به عنوان مثال، SlowFuzz برای جمعآوری زمان ،CPU تعداد دستورالعملهای اجرا شده را شمارش میکند. علاوه بر این، SlowFuzz به دقت بالایی از اطلاعات مصرف منابع نیاز دارد.
D.چگونه میتوان برنامهها را به طور کارآمد تست کرد؟
برنامههای هدف به طور مکرر توسط فازرها در حلقه اصلی فازینگ راهاندازی و خاتمه مییابند. همانطور که میدانیم، برای فازینگ برنامههای کاربری، ایجاد و اتمام فرآیند زمان زیادی از CPU را مصرف میکند. ایجاد و اتمام مکرر فرآیند به شدت میتواند کارایی فازینگ را کاهش دهد.
در نتیجه، کارهای قبلی به انجام بسیاری از بهینه سازیها پرداختهاند. هر دو ویژگیهای سیستم سنتی و ویژگیهای جدید در این بهینه سازیها مورد استفاده قرار گرفتهاند. AFL از روش forkserver استفاده میکند، که یک کلون مشابه از برنامه قبلا بارگذاری شده ایجاد میکند و از این کلون برای هر بار اجرای منفرد استفاده خواهد کرد. علاوه بر این، AFL حالت پایدار (persistent mode) را نیز ارائه میدهد که به جلوگیری از بار اضافی ناشی از ()syscall execve و فرآیند لینکینگ کمک میکند و حالت موازی (parallel mode) که به موازیسازی تست در سیستمهای چند هستهای کمک میکند. فناوری Trace پردازنده اینتل (PT) (جیمز 2013) در فازینگ هسته برای کاهش بار ناشی از ردیابی پوشش استفاده میشود. ژو و همکاران (2017) به حل گلوگاههای عملکردی فازینگ موازی بر روی ماشینهای چند هستهای میپردازند. آنها با طراحی و پیادهسازی سه عملگر جدید سیستم عاملی، نشان میدهند که کار آنها میتواند به طور قابل توجهی فازرهای پیشرفتهای مانند AFL و LibFuzzer را تسریع بخشد.
تکنیکهای ترکیب شده در فازینگ
برنامههای مدرن معمولا از ساختارهای داده بسیار پیچیده استفاده میکنند و تجزیه بر روی این ساختارهای داده پیچیده بیشتر احتمال دارد که به آسیب پذیریهایی منجر شود. استراتژیهای فازینگ کور که از روشهای جهش تصادفی استفاده میکنند، منجر به ایجاد تعداد زیادی کیس تست نامعتبر و کارایی پایین فازینگ میشوند. در حال حاضر، فازرهای پیشرفته معمولا از یک استراتژی فازینگ هوشمند استفاده میکنند. فازرهای هوشمند اطلاعات جریان کنترل و جریان داده برنامه را از طریق تکنیکهای تحلیل برنامه جمعآوری کرده و سپس از اطلاعات جمعآوری شده برای بهبود تولید کیسهای تست استفاده میکنند. کیسهای تست تولید شده توسط فازرهای هوشمند هدفمندتر هستند و احتمال بیشتری دارند که نیازهای برنامهها را برای ساختار داده و قضاوت منطقی برآورده کنند. شکل ۵ یک طرح از فازینگ هوشمند را به تصویر میکشد. برای ساخت یک فازر هوشمند، مجموعهای ازتکنیکها در فازینگ ترکیب شده است. همانطور که در بخشهای قبلی ذکر شد، فازینگ در عمل با چالشهای زیادی رو به روست. در این بخش، سعی میکنیم تکنیکهای استفاده شده در کارهای قبلی را خلاصه کنیم و اینکه این تکنیکها چگونه چالشها را در فرآیند فازینگ حل میکنند.
ما تکنیکهای اصلی ترکیب شده در فازینگ را در جدول ۵ خلاصه کردیم. برای هر تکنیک، برخی از کارهای نماینده را در جدول میزنیم. هر دو تکنیکهای سنتی، شامل تحلیل استاتیک تحلیل آلودگی، و اجرای نمادین، و برخی تکنیکهای نسبتا جدید مانند تکنیکهای یادگیری ماشین استفاده میشوند. ما دو مرحله کلیدی در فازینگ، یعنی مرحله تولید کیسهای تست و مرحله اجرای برنامه را انتخاب کرده و خلاصهای از چگونگی بهبود فازینگ توسط تکنیکهای یکپارچه ارائه میدهیم.
تولید کیسهای تست
همانطور که قبلتر ذکر شد، کیسهای تست در فازینگ به روشهای تولید مبتنی بر الگوریتم یا جهش مبتنی بر الگوریتم تولید میشوند. نحوه تولید کیسهای تستی که الزامات ساختار دادههای پیچیده را برآورده کنند و احتمالا به تحریک مسیرهای دشوار برسند، یک چالش کلیدی است. کارهای قبلی پیشنهادات متنوعی را همراه با تکنیکهای مختلف ارائه دادهاند.
مولد در فازینگ مبتنی بر تولید، کیسهای تست را بر اساس دانش فرمت دادههای ورودی تولید میکند. اگرچه برای چندین فرمت فایل رایج، مستندات در دسترس است، اما برای بسیاری دیگر اینطور نیست. به دست آوردن اطلاعات فرمت ورودیها یک مشکل باز دشوار است. از تکنیکهای یادگیری ماشین و روشهای فرمت برای حل این مشکل استفاده میشود. کار (گودفروید و همکاران 2017) از تکنیکهای یادگیری ماشین، به طور خاص، شبکههای عصبی بازگشتی، برای یادگیری گرامر فایلهای ورودی استفاده میکند و در نتیجه از گرامر یادگرفته شده برای تولید کیسهای تستی که فرمت را رعایت میکنند، استفاده میکند. کار (وانگ و همکاران 2017) از روش فرمت استفاده میکند، به طور خاص آنها یک گرامر احتمال محور و حساس به زمینه تعریف کرده و دانش فرمت را استخراج میکنند تا ورودیهای seed با فرمت خوب تولید نمایند.
بیشتر فازرهای پیشرفته از استراتژی فازینگ مبتنی بر جهش استفاده میکنند. کیسهای تست با اصلاح بخشی از ورودیهای seed در فرآیند جهش تولید میشوند. در یک فرآیند فازینگ جهش کور، جهش دهندهها به طور تصادفی بایتهای ورودیهای seed را با مقادیر تصادفی یا چندین مقدار خاص اصلاح میکنند، که ثابت شده است بسیار ناسازگار و ناکارآمد است. بنابراین، نحوه تعیین مکان برای اصلاح و مقداری که در اصلاح استفاده میشود، یک چالش کلیدی دیگر است. در فازینگ مبتنی بر پوشش، بایتهایی که میتوانند بر روی انتقال جریان کنترل تأثیر بگذارند، باید در ابتدا اصلاح شوند. تکنیک تحلیل آلودگی برای ردیابی تأثیر بایتها بر جریان کنترل استفاده میشود تا بایتهای کلیدی ورودیهای seed را در فرآیند جهش شناسایی کند. (راوات و همکاران 2017 ) دانستن مکانهای کلیدی فقط آغاز ماجرا است. طبق نظریه راوات و همکاران (2017)، دانستن مکانهای کلیدی فقط آغاز ماجرا است.
جدول 5. تکنیکهای ادغامشده در فازینگ
Program Execution | Testing Generation | |||
Path Exploration | Guiding | Mutation | Generation | Techniques |
* | * | * | Static analysis | |
* | * | Taint analysis | ||
* | * | * | Instrumentation | |
* | Symbolic execution | |||
* | * | Machin Learning | ||
* | Format Method | |||
به طور معمول، فرآیندها در برخی شاخهها، از جمله اعتبارسنجیها و بررسیها، مسدود میشوند. به عنوان مثال، بایتهای جادویی و سایر مقایسههای مقداری در قضاوتهای شرطی و تکنیکهایی از قبیل مهندسی معکوس و تحلیل آلودگی استفاده میشوند. با اسکن کد باینری و جمعآوری مقادیر فوری از عبارات قضاوت شرطی و استفاده از مقادیر جمعآوری شده به عنوان مقادیر کاندید در فرآیند جهش، فازرها میتوانند برخی از اعتبارسنجیها و بررسیهای کلیدی، مانند بایتهای جادویی و بررسی نسخه را دور بزنند.
راوات و همکاران (2017) تکنیکهای جدیدی مانند تکنیکهای یادگیری ماشین را نیز برای حل چالشهای قدیمی امتحان کردهاند. پژوهشگران مایکروسافت از تکنیکهای یادگیری ماشین مانند شبکههای عصبی عمیق (DNN) برای پیش بینی اینکه کدام بایتها باید تغییر یابند و چه مقداری در تغییر استفاده شوند بر اساس تجربیات قبلی فازینگ، از طریق LSTM استفاده میکنند.
اجرای برنامه
در حلقه اصلی فازینگ، برنامههای هدف به طور مکرر اجرا میشوند. اطلاعات وضعیت اجرای برنامه استخراج و برای بهبود اجرای برنامه استفاده میشود. دو مشکل کلیدی در مرحله اجرا این است که چگونه فرآیند فازینگ را راهنمایی کنیم و چگونه مسیرهای جدید را کشف نماییم. فرآیند فازینگ معمولا به گونهای راهنمایی میشود که کد بیشتری پوشش یابد و اشکالات را سریعتر کشف کند از این رو، اطلاعات اجرای مسیر ضروری است. تکنیکهای ابزارآلات (instrumentation) برای ثبت اجرای مسیر و محاسبه اطلاعات پوشش در فازینگ مبتنی بر پوشش استفاده میشود. بر اساس اینکه آیا کد منبع ارائه شده است یا خیر، از ابزارآلات داخلی و همچنین ابزارآلات خارجی استفاده میشود. برای فازینگ هدایت شده، تکنیکهای تحلیل استاتیک مانند شناسایی الگو برای مشخص و شناسایی کد هدف، که بیشتر آسیب پذیر است، به کار میروند. تکنیکهای تحلیل استاتیک همچنین میتوانند برای جمعآوری اطلاعات جریان کنترل، به عنوان مثال عمق مسیر، استفاده شوند که میتواند به عنوان یک مرجع دیگر در استراتژی راهنمایی مورد استفاده قرار گیرد (راوات و همکاران 2017). اطلاعات اجرای مسیر جمع آوری شده از طریق ابزارآلات میتواند به هدایت فرآیند فازینگ کمک کند. برخی ویژگیهای جدید سیستم و ویژگیهای سخت افزاری نیز در جمع آوری اطلاعات اجرا استفاده میشود. Trace پردازنده اینتل (Intel PT) یک ویژگی جدید است که توسط پردازندههای اینتل ارائه شده و میتواند یک ردگیری دقیق و جزئی از فعالیتها با قابلیتهای راهاندازی و فیلتر کردن ارائه دهد تا به جداسازی ردگیریهایی که اهمیت دارند کمک کند (جیمز 2013). با مزیت سرعت اجرای بالا و عدم وابستگی به کد منبع، Intel PT میتواند برای ردگیری دقیق و کارآمد اجرای برنامه استفاده شود. این ویژگی در فازینگ بر روی هستههای سیستم عامل در KAFL (شومیل و همکاران 2017) استفاده شده و ثابت شده است که به طور قابل توجهی کارآمد میباشد.
یک نگرانی دیگر در اجرای آزمون، کشف مسیرهای جدید است. فازرها نیاز دارند تا قضاوتهای شرطی پیچیدهای را در جریان کنترل برنامهها طی کنند.
تکنیکهای تحلیل برنامه، از جمله تحلیل استاتیک، تحلیل آلودگی و غیره، میتوانند برای شناسایی نقاط مسدودکننده در اجرای برنامه برای حل مسائل بعدی استفاده شوند. تکنیک اجرای نمادین (symbolic execution) در کشف مسیر مزیت طبیعی دارد. با حل مجموعه محدودیتها، تکنیک اجرای نمادین میتواند مقادیری را محاسبه کند که الزامات شرطی خاصی را برآورده کنند.
TaintScope (وانگ و همکاران 2010) از تکنیک اجرای نمادین برای حل اعتبارسنجی checksum که همیشه فرآیند فازینگ را مسدود میکند استفاده میکند. Driller (استیونز و همکاران 2016) از اجرای همنماد (concolic execution) برای دور زدن قضاوت شرطی و پیدا کردن اشکالات عمیقتر استفاده میکند.
فازینگ پس از سالها توسعه، بسیار دقیقتر، انعطاف پذیرتر و هوشمندتر از همیشه شده است. فازینگ مبتنی بر بازخورد یک راه کارآمد برای آزمون هدایت شده ارائه میدهد، تکنیکهای سنتی و جدید نقش حسگرهایی را ایفا میکنند تا در طول اجرای آزمون اطلاعات متنوعی به دست آورند و فازینگ را به طور دقیقی هدایت کنند.
فازینگ برای برنامههای مختلف
فازینگ از زمان ظهورش برای شناسایی آسیبپذیریها در برنامههای بزرگ مورد استفاده قرار گرفته است. با توجه به ویژگیهای مختلف برنامههای هدف، از فازرها و استراتژیهای مختلفی در عمل استفاده میشود. در این بخش، چند نوع برنامه اصلی که مورد فازینگ قرار گرفتهاند را ارائه و خلاصه میکنیم.
فازینگ فرمت فایل
بیشتر برنامهها شامل مدیریت فایل هستند و فازینگ به طور گستردهای در یافتن اشکالات این برنامهها استفاده میشود. تستهای فازینگ میتوانند با فایلهایی که فرمت استاندارد دارند یا ندارند، انجام شوند. رایجترین فایلهای مستندات، تصاویر و فایلهای رسانهای، فایلهایی با فرمت استاندارد هستند. بیشتر تحقیقات در زمینه فازینگ عمدتا بر روی فازینگ فرمت فایل تمرکز دارند و ابزارهای فازینگ بسیاری پیشنهاد شدهاند، مانندAFL ،Peach (PeachTech 2017) پیشرفته و گسترشهای آن (راوات و همکاران 2017؛ بوهمه و همکاران 2017). معرفی قبلی شامل تنوعی از فازرهای فرمت فایل بوده است، و ما دیگر ابزارها را در اینجا تأکید نخواهیم کرد.
یک زیرمجموعه مهم از فازینگ فرمت فایل، فازینگ بر روی مرورگرهای وب است. با پیشرفت مرورگرهای وب، این مرورگرها برای پشتیبانی از عملکردهای بیشتری نسبت به قبل گسترش یافتهاند. نوع فایلهایی که توسط مرورگرها مدیریت میشود از فایلهای سنتی CSS ،HTML و JS به انواع دیگر فایلها، مانند SVG ،PDF و سایر فرمتهای فایلی که توسط افزونههای مرورگر مدیریت میشوند، گسترش یافته است. به طور خاص، مرورگرها صفحات وب را به یک درخت DOM تجزیه میکنند که صفحه وب را به یک درخت شیء سندی تبدیل میکند که در آن با رویدادها و واکنشها در ارتباط است. به خصوص، تجزیه DOM و رندرینگ صفحه در مرورگرها در حال حاضر اهداف فازینگ محبوبی هستند. ابزارهای فازینگ معروف برای مرورگرهای وب شامل Freamwork Grinder (استیونفور 2016) ، COMRaider (زیمز 2013)، BF3 (آلدید 2013) و غیره میباشند.
فازینگ هسته
فازینگ بر روی هستههای سیستم عامل همیشه یک مشکل سخت است که شامل چالشهای زیادی میشود. اول، تفاوت با فازینگ در فضای کاربری، کرشها و قفل شدن در هسته، کل سیستم را به پایین میآورد و نحوه ثبت این کرشها یک مشکل باز است. دوم، مکانیزم مجوز سیستم منجر به یک محیط اجرای نسبتا بسته میشود، با در نظر گرفتن این که فازرها معمولا در حلقه اجرا میشوند و نحوه تعامل با هسته چالشی دیگر است. بهترین روش کنونی برای برقراری ارتباط با هسته، فراخوانی توابع API هسته است. علاوه بر این، هستههایی که بیشتر مورد استفاده قرار میگیرند مانند هسته ویندوز و هسته MacOS، کد منبع بسته هستند و سخت است که با بار اضافی کم ابزارآلات (instrumentation) شوند. با توسعه فازینگ هوشمند، پیشرفتهای جدیدی در فازینگ هسته حاصل شده است.
به طور کلی، هستههای سیستم عامل با فراخوانی تصادفی توابع API هسته با مقادیر پارامتر تصادفی فاز میشوند. بر اساس تمرکز فازرها، فازرهای هسته میتوانند به دو دسته تقسیم شوند: فازرهای مبتنی بر دانش و فازرهای مبتنی بر پوشش.
در فازرهای مبتنی بر دانش، دانش موجود در مورد توابع API هسته در فرآیند فازینگ به کار گرفته میشود. به طور خاص، فازینگ با فراخوانی توابع API هسته با دو چالش اصلی مواجه است: (1) پارامترهای فراخوانی API باید مقادیر تصادفی اما دارای فرمت صحیحی باشند که با مشخصات API مطابقت داشته باشند و (2) ترتیب فراخوانیهای توابع API هسته باید معتبر به نظر برسد (هان و چا 2017). کارهای نمایندگی شامل Trinity (جونز 2010) و IMF (هان و چا 2017 ) میشود. Trinity یک فازر هسته مبتنی بر نوع است. کیسهای تست در Trinity، بر اساس نوع پارامترها تولید میشوند. پارامترهای syscalls بر اساس نوع داده تغییر مییابند. به علاوه، مقادیر خاصی از انتسابها و دامنه مقادیر نیز ارائه میشود تا به تولید کیسهای تست با فرمت صحیح کمک کند. IMF سعی میکند ترتیب درست اجرای API و وابستگی مقادیر بین فراخوانیهای API را بیاموزد و از دانش آموخته شده در تولید کیسهای تست استفاده کند.
فازینگ مبتنی بر پوشش در یافتن اشکالات برنامههای کاربر به موفقیت زیادی دست یافته است. و مردم شروع به اعمال روش فازینگ مبتنی بر پوشش در یافتن آسیب پذیریهای هسته کردهاند. کارهای نمایندگی شامل syzkaller
(ویوکوف 2015)، TriforceAFL (هرتز 2015) و kAFL (Schumilo و همکاران 2017) میشود. Syzkaller هسته را از طریق کامپایل ابزارآلات کرده و آن را بر روی مجموعهای از ماشینهای مجازی QEMU اجرا میکند. در طی فرآیند فازینگ، پوشش و نقضهای امنیتی ردیابی میشوند. TriforceAFL نسخهای اصلاح شده از AFL است که از فازینگ هسته با شبیه سازی کامل سیستم QEMU پشتیبانی میکند.
KAFL از ویژگی جدید سخت افزاری،Intel PT، برای ردیابی پوشش و فقط ردیابی کد هسته استفاده میکند. آزمایش نشان میدهد که KAFL حدود 40 برابر سریعتر از Triforce است و به طور قابل توجهی کارایی را بهبود میبخشد.
فازینگ پروتکلها
در حال حاضر، بسیاری از برنامههای محلی به سرویسهای شبکهای در یک حالت B/S تبدیل شدهاند. خدمات بر روی شبکه پیاده سازی شدهاند و برنامههای کلاینت از طریق پروتکلهای شبکه با سرورها ارتباط برقرار میکنند. آزمایشهای امنیتی بر روی پروتکلهای شبکه، تبدیل به یک نگرانی مهم دیگر شده است. مشکلات امنیتی در پروتکلها میتواند آسیبهای جدیتری نسبت به برنامههای محلی به بار آورد، مانند حمله انکار سرویس، نشت اطلاعات و غیره. فازینگ مشترک با پروتکلها در مقایسه با فازینگ فرمت فایل چالشهای متفاوتی را در بر دارد. اول، خدمات ممکن است پروتکلهای ارتباطی مخصوص به خود را تعریف کنند که تعیین استانداردهای پروتکل را دشوار میسازد. علاوه بر این، حتی برای پروتکلهای مستند با تعریف استاندارد نیز، پیروی از مشخصاتی مانند اسناد RFC هنوز بسیار دشوار است.
فازرهای پروتکل نماینده شامل SPIKE هستند که مجموعهای از ابزارها را فراهم میکند که به کاربران این امکان را میدهد که به سرعت تسترهای فشار پروتکل شبکه را ایجاد کنند. سرژ گوربونو و آرنولد روزنبلوم AutoFuzz (گوربونو و روزنبلوم 2010) را پیشنهاد کردند که با ساخت یک خودکار متناهی (Finite State Automaton) پیاده سازی پروتکل را یاد میگیرد و سپس از دانش آموخته شده برای تولید کیسهای تست استفاده میکند. گرگ بنکس و همکارانش SNOOZE (بنکس و همکاران 2006) را پیشنهاد کردند که با رویکرد فازینگ حالت دار نواقص پروتکل را شناسایی میکند. کار یوری د روتیر (د روتیر و پول 2015) یک روش فازینگ حالت پروتکل پیشنهاد میدهد که وضعیت کار TLS را در یک ماشین حالت توصیف میکند و فرآیند فازینگ را طبق جریان منطقی انجام میدهد. کارهای قبلی به طور کلی از یک روش حالت دار برای مدلسازی فرآیند کار پروتکل استفاده کرده و کیسهای تست را طبق مشخصات پروتکل تولید میکنند.
روندهای جدید فازینگ
به عنوان یک روش خودکار برای شناسایی آسیب پذیریها، فازینگ اثربخشی و کارایی بالای خود را نشان داده است. با این حال، همانطور که در بخشهای قبلی اشاره شد، هنوز چالشهای زیادی وجود دارد که باید حل شوند. در این بخش، یک معرفی مختصر از درک خودمان برای مرجع ارائه میدهیم.
اول، فازینگ هوشمند امکانات بیشتری را برای بهبود فازینگ فراهم میکند. در کارهای قبلی، تحلیلهای استاتیک و دینامیک سنتی در فازینگ ادغام شدهاند تا به بهبود این فرآیند کمک کنند. در حالی که بهبودی در این زمینه حاصل شده، اما محدود است. با جمع آوری اطلاعات از برنامه هدف، اطلاعات اجرایی را از طریق روشهای مختلف جمع آوری کرده و فازینگ هوشمند کنترل بیشتری بر روی فرآیند فازینگ ارائه میدهد و استراتژیهای فازینگ زیادی پیشنهاد شده است. با درک عمیقتری از انواع مختلف آسیب پذیریها و استفاده از ویژگیهای آسیب پذیریها در فازینگ، فازینگ هوشمند میتواند به کشف آسیب پذیریهای پیچیدهتر کمک کند.
دوم، تکنیکهای جدید میتوانند به بهبود آسیب پذیری به طرق مختلف کمک کنند. تکنیکهای جدید، مانند یادگیری ماشین و تکنیکهای مربوطه، برای بهبود تولید کیسهای تست در فازینگ استفاده شدهاند. نحوه ترکیب مزایا و ویژگیهای تکنیکهای جدید با فازینگ و چگونگی تبدیل یا تقسیم چالشهای کلیدی در فازینگ به مسائلی که تکنیکهای جدید در آنها مهارت دارند، سوال دیگری است که شایسته بررسی است.
سوم، ویژگیهای جدید سیستم و ویژگیهای سخت افزاری نیز نباید نادیده گرفته شوند. کارهای ویوکوف (2015) و شومیلوا (2017) نشان دادهاند که ویژگیهای جدید سخت افزاری به طرز چشمگیری کارایی فازینگ را بهبود میبخشند و الهام خوبی به ما میدهند.
نتیجه گیری
فازینگ در حال حاضر مؤثرترین و کارآمدترین راه حل برای کشف آسیب پذیریها است. در این مقاله، یک مرور جامع و خلاصهای از فازینگ و پیشرفتهای اخیر آن ارائه دادهایم. اول، فازینگ را با سایر راه حلهای کشف آسیب پذیری مقایسه کردیم و سپس مفاهیم و چالشهای کلیدی فازینگ را معرفی کردیم. به طور ویژه فازینگ مبتنی بر پوشش را که در سالهای اخیر پیشرفتهای زیادی داشته است معرفی کردیم. در نهایت، تکنیکهای ادغام شده با فازینگ، کاربردها و روندهای ممکن جدید فازینگ را خلاصه کردیم.
منابع
Aldeid (2013) Browser fuzzer 3. https://www.aldeid.com/wiki/Bf3. Accessed 25 Dec 2017
Amini P (2017) Sulley fuzzing framework. https://github.com/OpenRCE/sulley. Accessed 25 Dec 2017
Banks G, Cova M, Felmetsger V, Almeroth K, Kemmerer R, Vigna G (2006)
Snooze: toward a stateful network protocol fuzzer. In: International
Conference on Information Security. Springer, Berlin. pp 343–358
Böhme M, Pham V-T, Nguyen M-D, Roychoudhury A (2017) Directed greybox fuzzing. In: Proceeding CCS ’17 Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. ACM, New York. pp 2329–2344. https://doi.org/10.1145/3133956.3134020
Böhme M, Pham VT, Roychoudhury A (2017) Coverage-based greybox fuzzing as markov chain. In: Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security. ACM. pp 1032–1043
Bowne S (2015) Fuzzing with spike. https://samsclass.info/127/proj/p18-spike. htm. Accessed 25 Dec 2017
Cha SK, Avgerinos T, Rebert A, Brumley D (2012) Unleashing mayhem on
binary code. In: Security and Privacy (SP) 2012 IEEE Symposium on. IEEE,
San Francisco. pp 380–394. https://doi.org/10.1109/SP.2012.31
De Ruiter J, Poll E (2015) Protocol state fuzzing of tls implementations. In:
Proceeding SEC’15 Proceedings of the 24th USENIX Conference on
Security Symposium. USENIX Association, Berkeley. pp 193–206 Godefroid P, Levin MY, Molnar D (2012) Sage: whitebox fuzzing for security testing. Queue 10(1):20
Godefroid P, Peleg H, Singh R (2017) Learn & fuzz: Machine learning for input fuzzing. In: Proceeding ASE 2017 Proceedings of the 32nd IEEE/ACM
International Conference on Automated Software Engineering. IEEE Press, Piscataway. pp 50–59
Gorbunov S, Rosenbloom A (2010) Autofuzz: Automated network protocol fuzzing framework. IJCSNS 10(8):239
Han H, Cha SK (2017) Imf: Inferred model-based fuzzer. In: Proceeding CCS ’17
Proceedings of the 2017 ACM SIGSAC Conference on Computer and
Communications Security. ACM, New York. pp 2345–2358. https://doi.org/3133956.3134103/10.1145
Hertz J (2015) Triforceafl . https://github.com/nccgroup/TriforceAFL. Accessed 25Dec 2017
James R (2013) Processor tracing. https://software.intel.com/en-us/blogs/ /18/09/2013processor-tracing. Accessed 25 Dec 2017
Jones D (2010) trinity. https://github.com/kernelslacker/trinity. Accessed 25 Dec 2017
King JC (1976) Symbolic execution and program testing. Commun ACM
394–385:)7(19 lcamtuf (2014) Fuzzing random programs without execve(). https://lcamtuf. blogspot.jp/2014/10/fuzzing-binaries-without-execve.html. Accessed 25 Dec 2017 libfuzzer (2017) A library for coverage-guided fuzz testing. https://llvm.org/ docs/LibFuzzer.html. Accessed 25 Dec 2017
Liu B, Shi L, Cai Z, Li M (2012) Software vulnerability discovery techniques: A survey. In: Multimedia Information Networking and Security (MINES), 2012
Fourth International Conference on. IEEE, Nanjing. pp 152–156. https://doi. org/10.1109/MINES.2012.202
Luk C-K, Cohn R, Muth R, Patil H, Klauser A, Lowney G, Wallace S, Reddi VJ, Hazelwood K (2005) Pin: building customized program analysis tools with dynamic instrumentation. In: Acm sigplan notices, volume 40. ACM, Chicago. pp 190–200
Nichols N, Raugas M, Jasper R, Hilliard N (2017) Faster fuzzing: Reinitialization with deep neural models. arXiv preprint arXiv:1711.02807
PeachTech (2017) Peach. https://www.peach.tech/. Accessed 25 Dec 2017 Petsios T, Zhao J, Keromytis AD, Jana S (2017) Slowfuzz: Automated domain-independent detection of algorithmic complexity vulnerabilities.
In: Proceeding CCS ’17 Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. ACM, New York. pp 2155–2168. https://doi.org/10.1145/3133956.3134073
Rajpal M, Blum W, Singh R (2017) Not all bytes are equal: Neural byte sieve for fuzzing. arXiv preprint arXiv:1711.04596
Rawat S, Jain V, Kumar A, Cojocar L, Giuffrida C, Bos H (2017) Vuzzer: Application-aware evolutionary fuzzing. In: Proceedings of the Network and Distributed System Security Symposium (NDSS). https://www.vusec.net/download/?t=papers/vuzzer_ndss17.pdf
Schumilo S, Aschermann C, Gawlik R, Schinzel S, Holz T (2017) kAFL:
Hardware-assisted feedback fuzzing for OS kernels. In: Kirda E, Ristenpart T
(eds). 26th USENIX Security Symposium, USENIX Security 2017. USENIX
Association, Vancouver. pp 167–182
Serebryany K, Bruening D, Potapenko A, Vyukov D (2012) Addresssanitizer: A fast address sanity checker. In: Proceeding USENIX ATC’12 Proceedings of the 2012 USENIX conference on Annual Technical Conference. USENIX
Association, Berkeley. pp 309–318
Serebryany K, Iskhodzhanov T (2009) Threadsanitizer: data race detection in practice. In: Proceedings of the Workshop on Binary Instrumentation and
Applications. pp 62–71
Shirey RW (2000) Internet security glossary. https://tools.ietf.org/html/rfc2828. Accessed 25 Dec 2017
Stephenfewer (2016) Grinder. https://github.com/stephenfewer/grinder. Accessed 25 Dec 2017
Stephens N, Grosen J, Salls C, Dutcher A, Wang R, Corbetta J, Shoshitaishvili Y,
Kruegel C, Vigna G (2016) Driller: Augmenting fuzzing through selective symbolic execution. In: NDSS, volume 16, San Diego. pp 1–16 Sutton M, Greene A, Amini P (2007) Fuzzing: brute force vulnerability discovery. Pearson Education, Upper Saddle River
Takanen A, Demott JD, Miller C (2008) Fuzzing for software security testing and quality assurance. Artech House
The Clang Team (2017) Dataflowsanitizer. https://clang.llvm.org/docs/
DataFlowSanitizerDesign.html. Accessed 25 Dec 2017
The Clang Team (2017) Leaksanitizer. https://clang.llvm.org/docs/
LeakSanitizer.html. Accessed 25 Dec 2017
Van Sprundel I (2005) Fuzzing: Breaking software in an automated fashion. Decmember 8th
Vyukov D (2015) Syzkaller. https://github.com/google/syzkaller. Accessed 25 Dec 2017
Wang J, Chen B, Wei L, Liu Y (2017) Skyfire: Data-driven seed generation for fuzzing. In: Security and Privacy (SP), 2017 IEEE Symposium on. IEEE, San Jose. https://doi.org/10.1109/SP.2017.23
Wang S, Nam J, Tan L (2017) Qtep: quality-aware test case rioritization. In:
Proceedings of the 2017 11th Joint Meeting on Foundations of oftware
Engineering. ACM, New York. pp 523–534. https://doi.org/10.1145/3106237.3106258
Wang T, Wei T, Gu G, Zou W (2010) Taintscope: A checksum-aware directed fuzzing tool for automatic software vulnerability detection. In: Security and privacy (SP) 2010 IEEE symposium on. IEEE, Berkeley. pp 497–512. https:// doi.org/10.1109/SP.2010.37
Wichmann BA, Canning AA, Clutterbuck DL, Winsborrow LA, Ward NJ, Marsh
DWR (1995) Industrial perspective on static analysis. Softw Eng J 10(2):69–75
Wikipedia, Wannacry ransomware attack (2017). https://en.wikipedia.org/wiki/
WannaCry_ransomware_attack. Accessed 25 Dec 2017
Wikipedia (2017) Dynamic program analysis. https://en.wikipedia.org/wiki/
Dynamic_program_analysis. Accessed 25 Dec 2017
Wu Z-Y, Wang H-C, Sun L-C, Pan Z-L, Liu J-J (2010) Survey of fuzzing. Appl Res Comput 27(3):829–832
Xu W, Kashyap S, Min C, Kim T (2017) Designing new operating primitives to improve fuzzing performance. In: Proceeding CCS ’17 Proceedings of the
2017 ACM SIGSAC Conference on Computer and Communications
Security. ACM, New York. pp 2313–2328. https://doi.org/10.1145/3133956.3134046
Yang Q, Li JJ, Weiss DM (2007) A survey of coverage-based testing tools. The Computer Journal 52(5):589–597
Zalewski, M (2017) American fuzzy lop. http://lcamtuf.coredump.cx/afl/. Accessed 25 Dec 2017
Zalewski M (2017) Afl technical details. http://lcamtuf.coredump.cx/afl/ technical_details.txt. Accessed 25 Dec 2017
Zimmer D (2013) Comraider. http://sandsprite.com/tools.php?id=16. Accessed 25 Dec 2017