۷۰٫۳%
۶۹٫۷%
۶۹٫۵%
۷۷٫۵%
۳-۴-۲- مطالعات مبتنی بر ترکیب طبقه بندی کننده ها:
در زمینه ترکیب طبقه بندی کننده ها برای کشف هرزنامه وب، انتخاب گروه[۷۰] هنوز کاربردی نشده است. توانایی ترکیب شمار زیادی از طبقه بندی کننده ها که از تناسب بیش از حد[۷۱] جلوگیری کند، انتخاب گروه را یک گزینه ایده آل برای طبقه بندی هرزنامه وب می کند. به این خاطر که به ما اجازه استفاده از شمار بزرگتری از ویژگیها را می دهد و جنبه های متفاوتی از داده های آموزشی در همان زمان آموزش داده می شود (یادگیری).
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
به جای تنظیم پارامترهای طبقه بندی کننده متفاوت، ما می توانیم روی پیدا کردن ویژگی های قوی و مدل های طبقه بندی اصلی که به اعتقاد ما قادر به ثبت تفاوت مابین کلاسهای تشخیص داده شده هستند تمرکز کنیم.
Erdélyi و همکاران برای پیاده سازی انتخاب گروه وکا را برای اجرای آزمایشات استفاده کرده اند. وکا از استراتژیهای اثبات شده برای جلوگیری از تناسب بیش ازحد نظیر bagging، جایگزینی با انتخاب، sort initialization، ارزیابی متقاطع پشتیبانی می کند. از -fold5 در طی آموزش و ساختن گروه ها استفاده شده، AUC را به عنوان متریک هدف برای بهینه سازی تنظیم کرده و ۱۰۰ تکرار را برای الگوریتم تپه نوردی[۷۲] اجرا کرده است.
در این مطالعه از دو مجموعه داده Web Spam-UK2007 و DC2010 ایجاد شده برایDiscovery Challenge 2010 ECML/PKDD روی کیفیت وب استفاده شده است.
Erdélyi و همکاران از انواع مدلهای زیر برای ساختن کتابخانه مدل برای انتخاب گروه استفاده کرده اند:
Bagged decision tree، Boosted decision tree، logistic regression، Naïve bayes، Random Forest
برای اغلب کلاس های ویژگیها همه ی طبقه بندی کننده ها بکار برده شده و اجازه انتخاب بهترین آنها را داده شده است.
برای ECML/PKDD Discovery، از سودمندی تجمعی نزولی نرمالیزه[۷۳] (NDCG) برای ارزیابی استفاده شده است. معیار DCG با بهره گرفتن از یک مقیاس رتبه بندی شده ارتباط اسناد در مجموعه نتایج موتورهای جستجو، سودمندی یک سند را مبتنی بر مکان آن در فهرست نتایج موتور جستجو می دهد. سودمندی از بالای فهرست به پایین فهرست با کاهش رتبه تنزل پیدا می کند.
سودمندی تجمعی[۷۴] مکان نتیجه را مورد توجه قرار نمی دهد و در واقع مجموع مقادیر ارتباط رتبه بندی شده می باشد و در یک مکان با رتبه p به صورت زیر تعریف می شود ]۴۸[:
(۳-۴)
CGP=
مقدار محاسبه شده توسط تابع سودمندی تجمعی با تغییرات در ترتیب نتایج جستجو تاثیرپذیر نیست بنابراین DCG معرفی شده است.
DCG بیان میکند که اسناد با ارتباط بالا که در فهرست موتورهای جستجو در مکان پایین تر آشکار می شوند باید جریمه شوند و مقدار ارتباط رتبه بندی شده باید متناسب با مکان آنها به صورت لگاریتمی کاهش یابد. DCG در یک مکان با رتبه p به صورت زیر محاسبه می شود ]۴۸[:
(۳-۵)
DCGp=
مقایسه کارایی موتورجستجو از یک پرسش تا پرسش دیگر نمی تواند تنها با DCG بدست آورده شود، بنابراین سودمندی تجمعی در هر مکان برای یک مقدار p انتخابی باید در طی پرسش ها نرمال سازی شود و این کار با مرتب سازی اسناد یک فهرست نتیجه به وسیله ارتباط، تولید بیشینه احتمال DCG تا مکان p، همچنین DCG ایده آل تا آن مکان انجام می گیرد. برای یک پرسش NDCG به صورت زیر محاسبه می شود]۴۸[:
nDCGp=
(۳-۶)
در اینجا برای تاکید کارایی روی فهرست کامل ، تابع کاهشی از تعریف عادی به خطی تغییر یافته:
۱-i/N
که در آن N سایز زیر مجموعه test است. برای توجیه عملکرد تابع کاهش، در نظر داشته باشید که یک آرشیو اینترنتی که ممکن است ۵۰ درصد و یا بیشتر دانه های میزبان شناسایی شده خزش شوند و هرزنامه ۱۰ تا ۲۰ درصد از همه میزبانها را تشکیل می دهد. فرمول نهایی ارزیابی ]۴۸[:
NDCG=
DCG=)
(۳-۷)
هدف ما کشف کارایی مجموعه ویژگیهای قابل محاسبه کم هزینه است و تشکیل مجموعه ویژگیها در زیر توضیح داده خواهد شد.
گروه فقط محتوا: سه گروه مختلف را روی ویژگی های فقط محتوا به منظور ارزیابی کارایی با حذف کامل اطلاعات لینک ساخته شده است. مجموعه ویژگی ها برای این گروه ها در زیر آمده اند.
(A): محتوای عمومی ]۴۹,۴۴[ ویژگیها بدون هر اطلاعات لینک. ویژگیها برای صفحه با رتبه صفحه بیشینه در میزبان برای صرفه جویی در محاسبات رتبه صفحه، استفاده نمی شود. دقت پیکره، کسری از کلمات در صفحه که فرکانس corpuswise و فراخوانی پیکره است، کسری از فرکانس اصطلاحات صفحه که زمانی استفاده می شوند که آنها نیاز به اطلاعات کلی از پیکره دارند.
(Aa): مجموعه کوچکی از ویژگی ها از ۲۴ ویژگی (A)، دقت پرسش و فراخوانی پرس و جو مشابه با دقت پیکره تعریف می شود. فراخوانی اما مبتنی بر اصطلاحات محبوب از یک لاگ فایل پرس و جو به جای پیکره کامل است. یک مجموعه ویژگی های قوی مبتنی بر شهود که هرزنامه نویسان اصطلاحاتی که پرسش های محبوب را آرایش می دهند استفاده می کنند.
(B): مجموعه محتوای عمومی کامل در برگیرنده ویژگیها برای صفحه با بیشینه رتبه صفحه میزبان
مجموعه ویژگی های B+: یک نماینده از کلمات مشتق شده از اصطلاحات BM25 طرح توزین اصطلاحات BM25 ]84,44[.
مقایسه کارایی گروه های ساخته شده با مجموعه ویژگی های بالا نشان می دهد که با تعداد ۱۰۰۹۶ ویژگی BM25 و B برای مجموعه داده UK2007 و مجموعه داده DC2010، متریک AUC به ترتیب مقادیر ۰٫۸۹۳ و ۰٫۸۹۱ بدست آمده و برای DC2010 متریک NDCG، مقدار ۰٫۸۹۳ بدست آمده است که بهترین مقادیر هستند.
در کمال تعجب با مجموعه Aa با تعداد کمی ویژگی(۲۴ ویژگی) کارایی تنها ۱ درصد بدتر شده است )۰٫۸۴۱(AUC=، با استفاده همه ویژگی های مبتنی بر محتوای موجود بدون اطلاعات پیوند، کارایی مشابه آنچه بهترین گزارشات روی مجموعه داده های مورد آزمایش تا کنون ارائه داده اند بدست آمده است (۱۰۲۷۳ ویژگی و برای UK2007 متریک ۰٫۹۰۲AUC=).
در این آزمایشات مشاهده شد که ویژگی های مبتنی بر لینک کارایی را افزایش نمی دهند.
با تصویرسازی روی ۱۰۰۰۰۰ میزبان Web Spam UK2007 و ۱۹۰۰۰۰ میزبان مجموعه داده ای DC2010، مبادله بین تولید ویژگی و دقت طبقه بندی هرزنامه را مورد مطالعه قرار گرفت و مشاهده شد که ویژگی های بیشتر کارایی بیشتری را باعث می شوند، هر چند که ویژگی های مبتنی بر لینک فقط کارایی حاشیه ای را بدست می دهند وتکنیک های یادگیری ماشین بهتر از خلق ویژگی های جدید پیچیده است. مولفین موفق به کامپایل یک مجموعه ویژگی های حداقل شده که می تواند به سرعت مورد محاسبه قرار گیرد تا رهگیری هرزنامه و زمان خزش مبتنی بر یک نمونه از یک وب سایت جدید را انجام دهد ]۴۸[.
۳-۴-۳- مطالعات مبتنی بر تست اهمیت ویژگی های متفاوت در تشخیص هرزنامه:
در مطالعه ای دیگر Egele و همکاران آزمایش های جامعی برای درک اثرات ویژگی های متفاوت در رتبه بندی موتورهای جستجو انجام داده اند. آنها سیستمی را توسعه داده اند که باعث کاهش ورودی های اسپم از نتایج موتورهای جستجو به وسیله پس پردازش آنها می شود.
انتخاب ویژگی:
نخست آنها به انتخاب ویژگی ها پرداخته اند. مهندسی معکوس برای تعیین ویژگی های متناسب برای رتبه بندی به کار برده شده است. برای پی بردن به اهمیت ویژگی، تست جعبه سیاه را روی موتورهای جستجو اجرا کرده اند. به طور دقیق تر مجموعه ای امتحانی متفاوت با ترکیبات متفاوت ویژگی ها را خلق نموده و رتبه آنها مشاهده نموده اند.
براساس گزارش از کمپانی های بهینه سازی موتورهای جستجو و مطالعه کارهای مرتبط ده ویژگی مهم صفحات را انتخاب کرده اند(کلمات کلیدی در برچسب عنوان، کلمات کلیدی در بدنه، کلمات کلیدی در برچسب H1، لینک های خروجی به سایتها با کیفیت بالا، لینک های خروجی به سایتها با کیفیت پایین، تعداد لینک های ورودی، متن لنگر لینک های ورودی شامل کلمات کلیدی، مقدار متنهای شاخص پذیر، کلمات کلیدی در مسیر فایل URL، کلمات کلیدی در نام دامنه) ]۸۶,۸۷,۸۵[.
با توجه به ویژگی ها، نخست مکان های متفاوت روی صفحه که یک عبارت جستجو می تواند ذخیره شود مورد بررسی قرار داده و ویژگی های مبتنی بر محتوا نظیر برچسب های بدنه، عنوان و سرفصل مورد بررسی قرار گرفته اند که شاخص خوبی برای اطلاعاتی که می توان بر روی آن صفحه یافت، می باشد. به علاوه ویژگی های مبتنی بر لینک نیز بیان شده اند. معمولاً تعداد لینک های ورودی به یک صفحه نمی تواند به طور مستقیم تاثیرگذار باشد (برای مثال ویژگی in–link). به همراه این ویژگی ها که مستقیماً با محتوای صفحه مرتبط نیست (نظیر کلمات کلیدی در نام دامنه) گستره وسیعی از ویژگی ها پوشش داده شده که برای محاسبه رتبه بندی کاربرد دارند.
آماده سازی صفحات تست: