سامانه‌ی کاوش
مهم‌ترین گونه‌ی حملات مبتنی بر وب، حملات Drive-by-Download هستند.
حملات Drive-by-Download از طریق دانلود ناخواسته نرم‌افزارهای کامپیوتری از طریق اینترنت رخ می‌دهند. این دانلودها به دو شکل دیده می‌شوند:
  1. دانلودهایی که در آن شخص با آگاهی اقدام به دانلود می‌کند، ولی از عواقب این دانلود بی‌اطلاع است.
  2. هر دانلودی که بدون اطلاع شخص اتفاق می‌افتد که اغلب آن‌ها جاسوس‌افزار، بدافزار و یا یک ویروس کامپیوتری هستند.

حملات Drive-by-Download ممکن است به هنگام بازدید یک وب‌سایت، دیدن یک رایانامه و یا با کلیک کردن بر روی پنجره‌ی pop-up فریبنده رخ دهند.
از آن‌جا که کشف این حملات، مهم تلقی می‌شود، بنابراین روش‌هایی برای کشف بدافزارهای مبتنی بر وب که از حمله Drive-by-Download برای ورود به سیستم استفاده می‌کنند، ارایه شده است. در این میان، به منظور بررسی URLها و یا کد صفحات، سرویس‌هایی وجود دارند که انواع حملات از جمله حملات Drive-by-Download را تشخیص می‌دهند و گزارشی از تحلیل انجام‌شده ارایه می‌دهند. سامانه‌ی کاوش با هدف تشخیص این حملات طراحی شده است.
ویژگی‌ها

سیستم چند مولفه‌ای و تحت‌وب برای ترجمه‌ی کد HTML و جاوا اسکریپت

دسته‌بندی صفحات و موارد با مولفه‌ی دسته‌بند

ذخیره‌ی نتایج و مشخصات در پایگاه‌داده.

امکان افزودن پایگاه‌داده‌ای یا دستی صفحات مخرب.


مولفه‌ها
شکل زیر یک شمای کلی از سامانه را نشان می‌دهد. روابط بین مولفه‌های مختلف سیستم از طریق جریان‌های داده‌ای برقرار می‌شود.
در مرحله اول، آدرس یک صفحه توسط کاربر وارد سامانه می‌شود. این آدرس توسط مولفه‌های ترجمه کد، اجرا شده و مجموعه‌ای از اطلاعات، از این صفحه استخراج می‌شود. پایگاه‌داده اطلاعات را در قالب خاصی ذخیره می‌کند.
اطلاعاتی که در نهایت توسط دسته‌بند فراخوانی می‌شوند و بعد از اجرای دسته‌بند، نتیجه نهایی مبنی بر مخرب یا مجاز بودن آدرس وارد شده، به کاربر برگردانده می‌شود.
قابل ذکر است که پایگاه‌داده حاوی اطلاعات استخراج‌شده از چندین آدرس سایت مخرب و مجاز است که زیرسیستم دسته‌بند با استفاده از این اطلاعات آموزش داده می‌شود تا با تنظیم صحیح پارامترهای دسته‌بندی نتایج دقیق‌تری ارایه دهد.
توصیف کلی مولفه‌ها:
مولفه‌ی ترجمه کد HTML
  • برای استخراج ویژگی‌های کد HTML لازم داریم که تابعی برای تجزیه کردن آن بنویسیم و در نهایت، ویژگی‌های استخراج‌شده را در قالب مناسب به دسته‌بند بفرستیم.
  • این مولفه برای یک آدرس صفحه مشخص، تعداد برچسب‌های آن را در جدولی در پایگاه‌داده ذخیره می‌کند تا در نهایت همراه با ویژگی‌های استخراج‌شده از کد جاوا اسکریپت وارد دسته‌بند شوند.
مولفه‌ی ترجمه‌ی کد جاوا اسکریپت
  • مهم‌ترین بخش استخراج پارامترها از کد، استخراج پارامترهای کدهای پویا در جاوا اسکریپت است.
  • ماهیت پویای این زبان، تحلیل دقیق کدهای نوشته‌شده را دشوار می‌کند بنابراین ما به دنبال استخراج ویژگی‌‌هایی هستیم که در تمام سواستفاده‌های منجر به حمله از آن‌ها استفاده شده است.
  • اولین قدم برای تحلیل کد جاوا اسکریپت، ترجمه‌ی کد و تشکیل درخت نحوی آن می‌باشد. درخت نحوی کد، مولفه‌های زبان برنامه‌نویسی مانند حلقه‌ها، شرط‌ها و مقداردهی‌ها را در یک ساختار سلسله‌مراتبی نمایش می‌دهد.
  • تعداد تکرار این ویژگی‌ها در پایگاه‌داده ذخیره خواهد شد و در نهایت مجموع ویژگی‌های استخراج‌شده از کد HTML و جاوا اسکریپت به یک قالب قابل پردازش توسط دسته‌بند تبدیل می‌شوند.
مولفه‌ی دسته‌بند
  • برای آموزش دسته‌بند در راه‌اندازی اولیه، از لیستی از آدرس صفحات مشکوک و سالم که از قبل تهیه شده است، استفاده می‌شود
  • اطلاعات این صفحات وارد پایگاه‌داده شده و سیستم را برای تشخیص مخرب یا سالم بودن صفحه جدید آماده می‌کنند.
مولفه‌ی پایگاه‌داده
  • در این سامانه اطلاعات جمع‌آوری‌شده در دو جدول در پایگاه‌داده ذخیره می‌شوند
  • اولین جدول همه‌ی ویژگی‌های استخراج‌شده از کد HTML و جاوا اسکریپت را برای یک آدرس صفحه مشخص همراه با نتیجه‌ی نهایی در مورد این‌که این صفحه مخرب است یا مجاز، در خود نگه‌داری می‌کند.
محیط کاربری