ميمصت تخرد یاهمتيروگلاfumblog.um.ac.ir › gallery › 412 › decision tree algorithm.pdfid3 ميمصت تخرد.2.2 شهاک ا ون ه ه|مآ وجوب یاه

يدانشکده مهندس

وتريکامپ يگروه مهندس

گزارش درس سيستمهاي خبره

درخت تصميم یهاتميالگور

: نگارش

يطه همدان

: درساستاد

کاهانيدکتر

۹١ ۱۹ ذرآ

چکيده

گيرد . درخت تصميم یک ده قرار ميرد استفاودرخت تصميم یکي از پرکاربرد ترین روشهایي است که براي استنتاج استقرایي م

روش غير پارامتریک با ساختار سلسله مراتبي داده و یادگيري با نظارت است که با استفاده از استراتژي تقسیيم و لیپ پيیاده

شیود و شود.در این روش ، تقسيم بندي داده ها با استفاده از ویژگي هاي آنها به صورت یک درخت پياده سازي میي سازي مي

آنگاه در مي آورند. این روش بر اساس داده هاي آموزش در هر مرلله –هي براي خوانایي بيشتر انسان به صورت قوانين اگر گا

کند و این کار را تا بندي ميو یا تعدادي بيشتر تقسيمدکند و داده هاي آن مجموعه را به یکي از ویژگي هاي داده را انتخاب مي

موجود در یک دسته داراي یک برچسب والد باشند . هاي م دادهدهد تا تمازماني ادامه مي

یادگيري با نظارت –روش تقسيم و لپ –درخت تصميم –هاي کليدي : استنتاج استقرایي واژه

مقدمه.1

2از روشهای شناخته شده در طبقه بندی ۹ها با استفاده از درخت تصمیمبندی دادهروش تقسیم

باشد .ها نمیها از قبل و همچنین دانش اولیه از دادهباشد که نیازی به تنظیم پارامترها میداده

که ١های آموزشیاین روش ، جزء روشهای طبقه بندی با ناظر قرار گرفته و با استفاده از داده

های هر کدام از تواند درختی به نام درخت تصمیم که بر اساس ویژگیگیرد میدر اختیار آن قرار می

و با استفاده دهدکند و نوع آنها را تشخیص می، آنها را برچسب گذاری می 4داده ها در قسمت تست

توان قوانینی برای سیستم استنتاج طراحی کرد و با استفاده از آن داده های بدون از این درخت می

[1] . گذاری کردبرچسب را برچسب

به ریشه از که کندمی بندی دسته نحوی به را ها نمونه آن در که است درختی تصمیم درخت

های زیر رسد و دزخت حاصل دارای ویژگیمی برگ های گره به نهایت در و کنندمی رشد پائین سمت

:باشد می

در را سوالی ویژگی این. شودمی مشخص 6 ویژگی یک با 5 برگ غیر یا داخلی گره هر -۹

.کندمی مطرح ورودی داده با رابطه

از یک هر که دارد وجود7 شاخه، سوال این با ممکن جوابهای تعداد به داخلی گره هر در -2

.شوندمی مشخص جواب آن مقدار با هاشاخه

هاجواب از دسته یک یا و گوییم که به آن برچسب می کالس یک با درخت این هایبرگ -١

.شوندمی مشخص

نامیم .می 8باالترین گره را در درخت تصمیم، گره ریشه -4

برای گیری تصمیم فرایند درخت این که است این تصمیم درخت این روش به نامگذاری علت

.دهدمی نشان را ورودی مثال یک دسته تعیین

های مشخص شده توسط این گره مورد بندی یک نمونه از گره ریشه شروع شده و ویژگیدسته

شاخه درختی که متناظر با آن ویژگی است صورت گیرد و آنگاه حرکت به سمت پایین بررسی قرار می

کند تا به یک باشد ، ادامه پیدا میدرختی که گره جدید ریشه آن میگیرد و این فرآیند برای زیرمی

کند .گره برگ برسیم و در این حالت گره برگ ، ویژگی داده مورد نظر را برای ما مشخص می

1 Decision tree 2 classification 3 Train data 4 Test data 5 Non leaf 6 attribute 7 reference 8 root

خیص بیماری را مشاهده ک درخت تصمیم را برای تشنمونه ای از ی ۹در ادامه در شکل شماره

. [5]خواهیم کرد

تشخیص بیماری مثالی از درخت تصمیم : ۹ کلش

صورتی مطرح نمود که پاسخ واحدی ه درخت تصمیم در مسایلی کاربرد دارد که بتوان آنها را ب

بصورت نام یک دسته یا کالس ارائه دهند.

تصمیمی ساخت که به این سوال پاسخ دهد: بیماری مریض کدام توان درخت برای مثال می

است؟ و یا درختی ساخت که به این سوال پاسخ دهد: آیا مریض به هپاتیت مبتالست؟

همچنین ارتباط مستقیمی ما بین درخت تصمیم و نمایش توابع منطقی وجود دارد به این

ها و خود درخت در حالت گیاز ویژ (AND)صورت که مسیر از ریشه تا برگ ترکیب عطفی

این 2سازد . به عنوان مثال در درخت شکل ها را می( از ویژگیOR)کلی ترکیب فصلی

: [1]کنیمرا مشاهده می ی زیرهاترکیب

2 کلش

ها مشاهده را برای متغیر XORو AND و ORسازی عملگرهای منطقی همچنین در ادامه پیاده

:[1] کنیممی

Outlook=Sunny AND Wind=Normal

Outlook=Sunny XOR Wind=Weak

Outlook=Sunny OR Wind=Weak

ساختن درخت .2

تا nتواند از ویژگی باشد در اینصورت ارتفاع درخت تصمیم ما می nهای ما دارای اگر داده

log(n) . بسته به انتخاب ویژگی های مختلف از داده ، متغیر باشد ،

ها بسازیم که کمترین ارتفاع را در درختهای تصمیم به دنبال این هستیم که درختی از ویژگی

این مورد نظر برسیم به ها به برچسب داده جستجوی کمتر بر روی ویژگیداشته باشد تا با تعداد

کنیم :آنتروپی را بیان می منظور ابتدا تعریفی از مفهوم

. تعريف آنتروپی 1.2که به آن کندها را حساب میآنتروپی یک مجموعه ، میزان ناخالصی آن مجموعه از داده

P(c)شود که در رابطه پایین به صورت رابطه زیر حساب میو شودنظمی یک مجموعه نیز گفته میبی

دهد .یرا نشان م Cهای متعلق به کالس نسبت داده

همانطور که از تعریف آنتروپی برای یک مجموعه مشخص است ، مقدار آنتروپی برای یک

رسد که نیمی از داده ها برای یک کالس و نیم دیگر مجموعه دو کالسه زمانی به مینیموم خود می

برای کالس دوم باشد که در این حالت مقدار آنتروپی برابر صفر خواهد بود و همچنین به مقدار

ها متعلق به یک کالس باشند که در این حالت مقدار رسد که تمامی دادهم خود میماکسیمو

:ماکسیموم برابر یک خواهد بود

تغییرات آنتروپی به صورت اگر مساله طبقه بندی بیشتر از دو کالس داشته باشد آنگاه محدوده

رابطه زیر خواهد بود :

ID3 درخت تصميم.2.2های بوجود آمده در هر نود را کاهش ود تا میزان ناخالصی مجموعهشدر این روش سعی می

[2] دهد تا با استفاده از این ویژگی در انتها درختی با ارتفاع مینیموم را بسازد .

نظمی را از فرمول آنتروپی بدست آورده و با ها ، میزان بیدر این روش ابتدا برای تمامی ویژگی

آن ویژگی به صورت رابطه زیر ۱ها ، میزان سودمندی اطالعاتامی ویژگیاستفاده از این مقدار برای تم

کنیم :حساب می

Aها به واسطه انتخاب ویژگی نظمی باقیمانده در دادهمیزان بی 𝐼𝑟𝑒𝑠(𝐴)که در رابطه باال

ها و به صورت رابطه زیر قابل محاسبه خواهد بود:باشد که به کمک مجموع هر کدام از احتمالمی

خواهد بود . Aهای بوجود آمده در صورت انتخاب ویژگی برابر زیر مجموعه aدر رابطه باال

دهیم که در ادامه مثالی از ساختن درخت تصمیم با استفاده از این الگوریتم را نشان می

در های مورد استفاده ،دارای سه ویژگی رنگ و خط دور شکل و نقطه داخل شکل هستند که داده

های را خواهیم داشت .در ادامه جدول داده ثلثهای مربع و مانتهای درخت در گره برگ برچسب

کنیم :مورد را مشاهده می ۹4ای آمورش بر

9 Information Gain

به صورت پنج نمونه مثلثنظمی برای دسته اولیه را با توجه به نه نمونه مربع و ابتدا میزان بی

کنیم :زیر محاسبه می

برای تمامی سه ویژگی محاسبه خواهد شد به عنوان مثال برای ویژگی رنگ 𝐼𝑟𝑒𝑠 و در ادامه

خواهیم داشت :

کنیم :سودمندی ویژگی رنگ را از رابطه زیر محاسبه می میزان

و برای ویژگی نقطه 15۹5۹خط دور شکل مندی برای ویژگی در ادامه الگوریتم میزان سود

ای که دارای بیشترین سودمندی باشد ویژگیآید که در این مرحله آن بدست می 15148داخل شکل

باشد .جا ویژگی رنگ میاین درشود که به عنوان ویژگی تقسیم درخت انتخاب می

های بوجود آمده را اگر تمامی اعضای آنها دارای یک در پایان هر مرحله ، هر کدام از مجموعه

کنیم وگرنه الگوریتم را یک مرحله دیگر برچسب بودند به آن مجموعه گره برگ برچسب را اضافه می

زیر با استفاده از این الگوریتم ١تصمیم شکل رویم. در انتها برای مثال باال ، درخت جلو می

حاصل خواهد شد :

ID3درخت تصمیم حاصل از الگوریتم : ١ کلش

باشد و های گسسته و محدود میها با دامنه ویژگیبندی دادهتنها قادر به دسته ID3الگوریتم

[3] باشد .برند مناسب نمیهایی که از عدم قطعیت رنج میهای نویزی یا دادهدر مورد داده

C4.5 درخت تصميم.2.2های با دامنه ادهبندی دباشد که قادر به دستهمی ID3گونه ارتقاء یافته الگوریتم الگوریتماین

باشد ها دارای دامنه گسسته میدر مواردی که داده C4.5باشد . الکوریتم های نویزی میپیوسته و داده

باشد های ما دارای دامنه پیوسته میکند و برای حالتی که دادهعمل می ID3همانند روش الگوریتم

گیرد و برای آن حد آستانه مقدار سودمندی در نظر می ۹1برای تمامی حاالت قابل انتخاب ، حد آستانه

سنجد و آن حد آستانه ای که دارای بیشترین سود مندی اطالعات باشد به عنوان اطالعات را می

گیری برای آن گره در نظر گرفته خواهد شد .شاخص تصمیم

کند ، امکان هرس کردن درخت ای که این روش را از روش قبلی متمایز میمهمترین ویژگی

شود که یک حد سازی میباشد و معموال به اینصورت پیادهبعد از ساخته شدن کامل درخت می

گیرند واگر میزان احتمال رخداد یک برگ از درخت کمتر از این حد آستانه ای در نظر میآستانه

های کنند یا در صورت لزوم با برگهای مجاورش باشد آنگاه این برگ را حذف مینسبت به برگ

کنند .ور ترکیب میمجا

و حذف ۹۹هدف از این کار کاهش ارتفاع درخت جهت جلوگیری از یادگیری بیش از حد

.باشد های نویزی میداده

10 Threshold 11 Over fitting

. يادگيری بيش از حد و روشهای اجتناب از آن 3

های آموزش برابر روی داده hداریم و خطای این درخت hفرض کنید یک درخت تصمیم به نام

باشد ، آنگاه Derror (h)های آمورش و تست برابر با باشد و خطا بر روی کل داده trainerror (h)با

’hیادگیری در این درخت دچار مشکل یادگیری بیش از حد شده است اگر درخت دیگری مانند

وجود داشته باشد به صورتی که رابطه زیر برقرار باشد :

’hکمتر از درخت آموزشهای روی داده hباشد که خطای درخت این رابطه به این معنا می

باشد ، این مقدار بیشتر زش و تست میهای آموها که شامل دادهباشد ولی خطا بر روی کل دادهمی

گویند .باشد که به این مشکل ، یادگیری بیش از حد می

های درخت ایز درخت که همان تعداد گرهنشان داده شده است که هرچه س 4در شکل

شود و در امتداد آن خطا بر روی های آموزش کمتر میباشد ، بیشتر شود آنگاه خطا بر روی دادهمی

های آموزش و هم که شامل هم داده Derror (h)های تست بیشتر خواهد شد و در نتیجه داده

. [3]باشد ، افزایش پیدا خواهد کردهای تست میداده

های درخت نمودار دقت بر اساس تعداد راس : 4 کلش

برای جلوگیری از این پدیده باید روالی وجود داشته باشد که از رشد بیش از حد رئوس درخت

گویند که به دو های آموزش جلوگیری شود که به این روال ، هرس کردن درخت تصمیم میبرای داده

اشند :بدسته کلی قابل تقسیم کردن می

کنند که تا قبل از اینکه درخت های هرس کردن اینگونه عمل میی اول از روشدسته -۹

گیرند و مشکل مل رشد کند ، از یک جایی به بعد جلوی رشد آن را میتصمیم به صورت کا

ها که باشد حل شود این است که مکان دقیق جلوگیری از رشد درخت اصلی در این روش

جلوگیری از رشد درخت قبل از اینکه به طور کامل رشد کند را روش باید محاسبه شود .

گویند .درخت می ۹2پیش هرس

شود شود که ابتدا به درخت اجازه داده میها یه این صورت عمل میدر دسته دوم از روش -2

هایی از درخت که تا به طور کامل رشد کند و بهد از ساخته شدن کامل درخت آنگاه شاخه

شوند که به این روش ، پس ت تاثیر بسزایی ندارند از درخت حذف میدر دقت درخ

گویند .می ۹١هرس

های هرس کردن از سرعت باالتری نسبت در عمل نشان داده شده است که دسته اول از روش

به دسته دوم برخوردارند ولی در مقابل روشهای دسته دوم از کارایی و دقت بیشتری برخوردارند .

هرس استفاده از یک حد آستانه بر روی سودمندی اطالعات یک شاخه ای پیشهیکی از روش

باشد و اگر این سودمندی اطالعات از حد آستانه کمتر بود رشد های باقیمانده میبرای تمامی ویژگی

ی تعیین دقیق حد آستانه و سازد ولی نکته مهم در این روش نحوهدرخت در آن شاخه را متوقف می

[4] شود ، است .برای تعیین آن در نظر گرفته می هایی کهروش

در ادامه توضیح داده خواهد شد . یکی از روشهای مهم پس هرس

Reduced Error Pruningرس کردن درخت به روش ه .1.3

ابتدا به باشد کهو به این صورت می ارائه شده است Quinlanتوسط ۹4روش کاهش خطای هرس

هائی را که باعث افزایش دقت تا به اندازه کافی رشد کند. سپس گره شوددرخت اجازه داده می

.گردندرس میهشوند دسته بندی نمی

12 Pre pruning 13 Post pruning 14 Reduced error pruning

هایدرخت با دادهو در ادامه شوندو آموزش تقسیم می سنجیاعتبارداده ها به دو مجموعه

nشاخه زیر ( nسپس برای یک گره داخلی )غیر برگ شود.آموزش مطابق روش قبل یاد گرفته می

دسته بندی برچسب ین برگ که به ا شوداین زیر شاخه با یک برگ جایگزین می و گرددحذف می

شود.اکثر مثالهای قرار گرفته تحت این شاخه نسبت داده می

رس شده هاگر درخت و شودبررسی می سنجیاعتبارهای عملکرد درخت برروی مثالدر ادامه

رس کردن ه شود. رس شده استفاده میهفعلی داشت از درخت عملکرد بهتر و یا مساوی با درخت

رس بیشتر، سودی نداشته باشد.هآنقدر ادامه می یابد تا

عملکرد این روش را به صورت نموداری از اندازه گراف و دقت درخت 5در ادامه در شکل

کنیم :مشاهده می

های درخت با الگوریتم کاهش خطای هرس نمودار دقت بر اساس تعداد راس : 5 کلش

قابل مشاهده است هرس کردن درخت تصمیم با استفاده از این روش 5همانطور که در شکل

های تست و آموزش را افزایش دهد .توانسته است تا دقت درخت تصمیم بر روی کل داده

درخت برای ويژگی انتخاب معيارهای ساير. 4

این شود، اضافه تاریخ نام به ویژگی یک های یک درخت تصمیم به عنوان مثالویژگی به اگر

اینکه به علت واقع در. کند بندی دسته را آموزشی مثالهای کلیه تا بود خواهد قادر تنهائی به ویژگی

حاصله درخت و شد خواهد انتخاب درخت ریشه بعنوان است زیادی اطالعات بهره دارای ویژگی این

.بود خواهد کمی بسیار عمق دارای

مورد در اما کرد خواهد بندی دسته بخوبی را آموزشی مثالهای درخت این اینکه وجود با

حفظ را آموزشی مثالهای عمل در درخت این زیرا. نمود خواهد عمل ضعیف بسیار نادیده مثالهای

[5].نیست تعمیم به قادر و کرده

gain ratio یا و بهره نسبت نام با دیگری معیار از توانمی تاریخ مثل هائی ویژگی از پرهیز برای

و گستردگی چه با ویژگی یک که است این به داشتن حساسیت آن خاصیت که نمود استفاده

.کندمی جدا را ها داده یکنواختی

:شود می تعریف زیر صورتبه عبارتی کاراین برای

: شودفوق نسبت بهره بصورت زیر تعریف می با استفاده از عبارت

SplitInformation (SI) شود تا ویژگی هائی که مقادیر زیادی با توزیع یکنواخت دارند باعث می

حذف گردند.

2برای مثال یک ویژگی نظیر تاریخ برای تک تک مثالها توزیع یکسانی دارد از اینرو nSI=log

خواهد شد. SI=1ژگی مثالها را به دو دسته تقسیم کند خواهد شد در حالیکه اگر یک وی

ی با هزينه متفاوتيويژگی ها. 5

و باشد باال بسیار ها ویژگی برخی کردن تست هزینه است ممکن بیمار یک پرونده بررسی در

. باشد خطرناک آن تست ویژگی موثربودن علیرغم اینکه یا

برای. دهد ترجیح را کم هزینه با های ویژگی که کرد بایاس طوری را درخت باید حالت این در

[5].نمود تقسیم هزینه بر را بهره است ممکن مثال

نامعلوم های ويژگی با یيهامثال. 6

در برخی از کاربردها نظیر مدارک پزشکی جمع آوری شده در بیمارستانهای مختلف ممکن است

تواند این باشد که صورت یک انتخاب میها درست ثبت نشده باشد. در این مقدار برخی از ویژگی

[5]نسبت داده شود. nترین مقدار مثالها در گره به آن مقدار متداول

در ادامه ی گزارش، به بررسی اجمالی الگوریتم های درخت تصمیم می پردازیم.

. درخت های تصميم چند متغيره7صمیم چند متغیره می اغلب درخت های تصمیم بصورت تک متغیره می باشند. درخت های ت

توانند از جداسازهایی که بیش از یک ویژگی را در هر گره داخلی مد نظر قرار می دهند استفاده می

کنند. اگرچه روش های زیادی برای ساخت درخت های تصمیم چند متغیره وجود دارد اما به وسعت

یک روش مفهومی برای ]7[روش های ساخت درخت تصمیم تک متغیره نمی باشد. مرفی و پازانی

استنتاج ساختاری از درختان تصمیم چند متغیره را ارائه داده اند. آنها نشان دادند که کارایی استنتاج

درختان تصمیم چند متغیره نسبت به درخت تصمیم تک متغیره بهتر می باشد. یکی از بزرگترین

و هرس این NP-Completeزمانی مشکالت این درختان، یافتن تابع تصمیم چند متغیره با پیچیدگی

درختان می باشد.

درختان تصمیم چند متغیره اغلب کوچکتر و دقیق تر از درختان تصمیم تک متغیره هستند.

اما استفاده از ترکیب خطی از ویژگی های چندگانه برای بیان و استنباط نتایج حاصل بسیار مشکل

تر و زمان برتر از یافتن جداساز تک متغیره مسئله ی یافتن یک جداساز خطی بهینه مشکل است.

است. بایوک نشان داد که درخت های تصمیم دو متغیره می توانند مزایای هر دو درخت های تک

، ID3متغیره و چند متغیره را داشته باشند. از معروف ترین درختان تصمیم تک متغیره می توان به

C4.5 ،C5 وCART قسمت های قبل توضیح داده شده و در ادامه به اشاره کرد که دو مورد اول در

توضیح سایر روش ها می پردازیم.

. درخت های تصميم چندتايی8 یکی از ضعف های شناخته شده ی ساختار درخت های تصمیم، زمانی است که تعداد نمونه ها

کم و تعداد ویژگی ها زیاد باشد. در این صورت در هر گره تصمیم چندین ویژگی خوب و

یکسان برای انتخاب به عنوان ویژگی جداساز وجود دارد ولی تنها یکی از آن ویژگی ها را می توان با

توجه به معیارهای انتخاب مانند سودمندی اطالعات بر پایه ی بی نظمی و... انتخاب کرد. با این کار

یابد. دقت و قابلیت اعتماد درخت تصمیم برای تعداد نمونه های یادگیری کم، کاهش می

روش های زیادی در باره ی استفاده از یک مجموعه از درخت های تصمیم به جای یک درخت

تصمیم برای افزایش اطمینان و باال بردن دقت ارائه شده است.

ایده ی اصلی این روش ها به این صورت است که یک مجموعه درخت تصمیم با نمونه های

آنها با هم ترکیب می گردد. درخت های متعددی به یادگیری موجود ساخته می شود و سپس نتایج

صورت تصادفی و با استفاده از زیرمجموعه های مختلفی از ویژگی ها ساخته می شود و با استفاده از

روش رای گیری ساده و یا روش های آماری برای ترکیب نتایج، بهترین درخت تصمیم انتخاب می

های امل همه ی درخت های تصمیم ساخته شده از دادهشود. مرفی و پازانی یک جنگل تصمیم که ش

ند. آنها رابطه ی اندازه ی درخت )تعداد گره ها( با داده های یادگیری دآور یادگیری می باشد را بوجود

و دقت داده های آزمایش را بررسی کرده و نشان دادند که درخت های تصمیم کوچکتر برای مسایل

صورتی که استفاده از درخت های تصمیم بزرگ و پیچیده دارای قابل توصیف تر هستند در ساده،

دقت بیشتری است.

. درخت های تصميم افزايشی9یکی از مشکالت درخت های تصمیم، عدم دسته بندی صحیح نمونه های تست جدید می

باشد. درخت تصمیم به دلیل اینکه با یک مجموعه نمونه ی داده ی آموزش ساخته می شود، قابلیت

یکی از روش های ID3طبقه بندی صحیح نمونه های داده ای جدید را بصورت کامل ندارد. روش

فزایشی می باشد که با آمدن هر نمونه داده ی جدید، درخت را از ابتدا ساخت درخت تصمیم ا

ارائه کردند که ID4یک درخت تصمیم افزایشی به نام ]۱و 8[بروزرسانی می کند. فیشر و اسکالیمر

با آمدن نمونه ی جدید، یک زیر درخت از درخت تصمیم آموزش داده شده و دوباره ساخته می شود.

را ارائه نمود که در ID5الگوریتم درخت تصمیم افزایشی پیشرفته ی ]۹1[تگاف ، او۹۱8۱در سال

این الگوریتم آمار توزیع نمونه ها بر روی ویژگی ها در هر گره نگهداری می شود تا در صورت نیاز،

درخت بروزرسانی شود. هر گاه یک نمونه ی جدید وارد درخت شود، اثر آن نمونه بر روی توزیع

ته و چک می شود که آیا درخت نیاز به بروزرسانی از طریق جایگزینی گره فعلی با ویژگی محاسبه گش

متفاوت دارد یا خیر.

در سال های اخیر، درختان تصیمی ارائه شده اند که از درخت های تصمیم کالسیک ایده

لگوریتم ها گرفته و با یک یا چند الگوریتم خوشه بندی یا طبقه بندی ترکیب شده اند. تمامی این ا

سعی در بهبود کارایی درخت تصمیم دارند. درخت های تصمیم در مقابل رقبای قوی همچون شبکه

های عصبی مصنوعی، رگرسیون خطی، الگوریتم های طبقه بندی و خوشه بندی توانسته اند یک

مختلف سری مزیت هایی داشته باشند که باعث شده است از این الگوریتم ها هنوز هم در کاربردهای

همچون شناسایی الگو، یادگیری ماشین و... استفاده شود. از جمله مزیت های این الگوریتم ها می

توان به فهم ساده ی آن برای انسان اشاره کرد.

در ادامه به سایر روش های ساخت درخت تصمیم اشاره ی کوتاهی می شود.

CARTدرخت تصميم الگوريتم . 11توسط بریمن ارائه شد که از معیار ضریب جینی برای تقسیم داده ۹۱84این الگوریتم در سال

یک درخت دودویی تک متغیره ایجاد می کند که CARTها به گروه های مختلف استفاده می کند.

این الگوریتم قابلیت تولید درخت رگرسیون را نیز دارد.

CHAID. الگوريتم درخت تصميم 11تصمیم، روش های آماری با سایر روش های خوشه بندی و طبقه بندی ترکیب این درخت

کرده و معیاری برای انتخاب ویزگی برای هر گره داخلی درخت بدست می آورد. این درخت از فرضیه

برای پیدا کردن بهترین ویژگی جداساز در هر گره بهره می برد. Pی مقدار

تصمیم را مبتنی بر آزمون های چند متغیره ترکیب نام دارد که درخت LMDTالگوریتم دیگر

خطی از ویژگی ها می سازد.

یک درخت تک متغیره ی دودویی CARTمی باشد که شبیه درخت QUESTالگوریتم دیگر

است که از معیار جداسازی خطی استفاده می کند که این درخت نسخه ی ارتقا یافته ی درخت

FACT دو پیرسون برای محاسبه ی ارتباط هر یک از ویژگی های است. این درخت از آزمون کی

است tکه تعمیم یافته ی آزمون Fورودی با هدف استفاده می کند. همچنین در این روش از آزمون

استفاده می شود. در این آزمون واریانس برای ارزیابی یکسان بودن یا نبودن دو جامعه و یا چند جامعه

آن تجزیه می شود و به همین دلیل به آن آزمون آنالیز واریانس نیز گفته کل جامعه به عامل اولیه ی

می شود. وقتی بخواهیم به جای دو جامعه، همبستگی چند جامعه را با هم مقایسه نماییم از این

بسیار مشکل است. این tآزمون استفاده می شود. چون مقایسه ی میانگین های چند جامعه با آزمون

ی تساوی واریانس دو جامعه مورد استفاده قرار می گیرد.آزمون برای بررس

دو پیرسون برای دو منظور مورد استفاده قرار می گیرد. مورد اول برای برازش آزمون کی

مورد دوم ارزیابی استقالل دو یک جامعه که آیا از توزیع خوبی برخوردار می باشد یا نه. ۹5خوبی

جامعه است.

را مبتنی بر برچسب زنی ها زبانی تشکیل دادند و C4.5صمیم کین و الوری ساختار درخت ت

، یک درخت تصمیم معمولی به 6در شکل .]۹۹[بدین ترتیب قوانین فازی را از آن استخراج کردند

15 Goodness of fit

، همان درخت تصمیم با 7همراه تقسیم بندی فضای دو بعدی مسئله مشاهده می شود. در شکل

باشد. معیارهای جداساز فازی قابل مشاهده می

درخت تصمیم با تابع تصمیم معمولی -6شکل

درخت تصمیم با تابع تصمیم فازی -7شکل

(PDT. درخت تصميم پرسپترون )11درخت های تصمیم پرسپترون درخت هایی هستند که هر یک از گره های داخلی با یک ابر

. درخت های تصمیم پرسپترون به ]۹2[صفحه در فضای ورودی به جداسازی داده ها می پردازند

، FATشدت تمایل به یادگیری بیش از حد دارند. سه درخت تصمیم مبتنی بر پرسپترون با نام های

MOC1 وMOC2 برای افزایش حاشیه ی درخت تصمیم پرسپترون و رفع مشکل 2111در سال

ا گرایش به سمت حاشیه یادگیری بیش از حد ارائه شد. این الگوریتم ها با ترکیب مرحله ی هرس ب

های بزرگ، عملکرد بهتری را نسبت به درخت های تصمیم پرسپترون قبلی دارند. درخت دودویی

SVMT ارائه شد که ابتدا در هر گره، داده ها با استفاده از الگوریتم خوشه بندی 2115در سالLLE

اده می شود و درخت به با آن داده ها آموزش د SVMبه دو زیر مجموعه تقسیم می شوند و سپس

صورت بازگشتی تا انتها ساخته می شود. از مشکالت این الگوریتم می توان به وابستگی زیاد به داده

ارائه گردید که در آن با استفاده از هرس 211۱ها اشاره کرد. نسخه ی ارتقا یافته ی آن در سال

ها بر طرف گردیده است.مشکل وابستگی به داده عمق-سطح و هرس پوشای اول-پوشای اول

C4.5ارائه گردید. این درخت تصمیم از ترکیب درخت SVMM، درخت تصمیم 2118در سال

داده ها را تا C4.5بوجود می آید. در واقع با استفاده از الگوریتم درخت تصمیم SVMبا الگوریتم

رسیدن به دو ویژگی تقسیم بندی می کند. سپس اگر خطای یادگیری در این گره از مقدار ثابتی

به چند زیرشاخه تقسیم SVMبیشتر بود، نمونه داده های واقع در این گره را با استفاده از الگوریتم

صورت بازگشتی فراخوانی می به را برای هر کدام از زیرشاخه ها SVMMمی کند. در نهایت الگوریتم

ک برچسب در نظر می گیرد.ند در غیر اینصورت برای آن، یک

و C4.5، پالت و گونزیک روش ترکیبی بر اساس طبقه بند درخت تصمیم 211۱در سال

SVM ارائه دادند. به این صورت که اگرM ،کالس وجود داشته باشدM بار الگوریتم فراخوانی می

دارای برچسب مثبت و بقیه ی کالس ها دارای برچسب منفی می iام، کالس iگردد و برای اجرای

نمونه ای از 8در شکل گردند. در واقع با هر بار اجرا، یک کالس از بقیه ی کالس ها جدا می شود.

نحوه ی اجرای الگوریتم را برای چهار کالس مشاهده می کنیم.

ونز برای چهار کالساجرای الگوریتم درخت تصمیم پالت و گ -8شکل

های پايه ی درخت تصميم تميبهبود الگور. 12 C4.5بسیاری از پژوهشگران بر روی بهبود الگوریتم های درخت های تصمیم پایه مانند

متمرکز شده اند و راهکارهای زیادی برای بهبود عملکرد آن پیشنهاد داده اند. در تمامی این راهکارها

فتن آستانه ی مناسب تر استفاده شده است. سه راهکار کلی برای بهبود از جستجوی دودویی برای یا

این الگوریتم پیشنهاد شده است که راهکار اول و دوم به ترتیب از جستجوی سریع و جستجوی

با استفاده از الگوریتم C4.5شمارشی استفاده می کنند و راهکار سوم محاسبه ی آستانه ی محلی

است که نیاز به مرتب کردن داده ها ندارد. ۹6جنگل های بارانی

نیز الگوریتم دیگری برای ساخت درخت تصمیم است که در سال C5.0/See5.0الگوریتم

است و مزایای آن C4.5توسط کوئینلن معرفی شد. این الگوریتم توسعه یافته ی الگوریتم ۹۱۱6

ایجاد درخت های کوچکتر و قابلیت سرعت باالتر در آموزش میزان حافظه ی مصرفی کمتر، همچنین

غربال اتوماتیک داده های یادگیری برای کاهش نویز است.

برخی از محققین با استفاده از الگوریتم های تکاملی، سعی در بهبود کارایی درخت های تصمیم

بین در مقاله ی خود از الگوریتم های تکاملی برای افزایش کارایی درخت تصمیم، ]۹١[دارند. آیتنهد

درخت و نمونه های یادگیری استفاده کرده است. الگوریتم های تکاملی باعث کاهش اندازه و عمق

درخت تصمیم می شوند.

در بسیاری از کارها به دنبال درخت های تصمیم با برچسب های سلسله مراتبی هستیم که در

نمونه ای از آن را مشاهده می کنید. ۹1شکل

برچسب زنی سلسله مراتبی درخت تصمیم با -۹1شکل

. عمومی ترين معيارهای انتخاب ويژگی 13

در بخش های قبل با انواع روشهای ساخت درخت تصمیم آشنا شدیم که هر کدام از روش ها از

یک معیار برای انتخاب بهترین ویژگی در هر گره استفاده می کند. برخی از درخت های تصمیم، سعی

16 Rainforest algorithm

انتخاب ویژگی دارند. در صورتی که برخی دیگر از الگوریتم ها، سعی در در بهبود معیارهای

بهبود ساختار درخت با اعمالی همچون هرس کردن و... دارند. در ادامه به چند نمونه از معیارهای

انتخاب ویژگی که در الگوریتم های پایه ی درخت تصمیم مورد استفاده قرار می گیرند اشاره می

کنیم.

جينیضريب 1.13به عنوان معیار انتخاب ویژگی استفاده می شود و SLIQو CARTضریب جینی در الگوریتم

رابطه ی آن به صورت زیر است:

را نشان می دهد. در این الگوریتم ابتدا cنسبت داده های متعلق به کالس jp(c(که در آن

مقدار سودمندی هر یک از ویژگی ها از رابطه ی زیر بدست می آید:

این الگوریتم همانند روش استفاده از آنتروپی، ابتدا برای تمامی ویژگی ها ضریب جینی را با

که دارای بیشترین سودمندی اطالعات است را Fاستفاده از رابطه ی باال حساب کرده، سپس ویژگی

به عنوان ریشه ی ویژگی جداساز انتخاب می کند.

به عنوان ویژگی ام Aه ی بوجود آمده با انتخاب ویژگی بیانگر زیرشاخ aدر رابطه ی باال،

جداساز است.

تفاوت ظاهری بین معیار آنتروپی و ضریب جینی نمایش داده شده است. ۹۹در شکل

تفاوت آنتروپی و ضریب جینی -۹۹شکل

دومعيار کی 2.13برخی از الگوریتم های درخت تصمیم به وسیله ی معیار ارزیابی شباهت بین ویژگی ها به

عنوان معیار جداساز، سعی در تقسیم بندی داده های ورودی دارند. به عنوان مثال، درخت تصمیم

CHAID دو برای انتخاب بهترین ویژگی در هر گره داخلی درخت تصمیم استفاده می از معیار کی

دو رابطه ی بین متغیرها و برچسب ها را بصورت زیر تعریف می کند:یار کیکند. مع

تعداد nام هستند و jبه ترتیب مشاهده و مقدار مورد انتظار کالس ijEو ijxدر رابطه ی باال،

دو را داشته باشد به عنوان ویژگی جداساز انتخاب می ویژگی هاست. ویژگی ای که بیشترین مقدار کی

.]۹4[ گردد

Gمعيار 3.13است که به صورت زیر Gیکی دیگر از معیارهای مورد استفاده در انتخاب بهترین ویژگی، معیار

تعریف می گردد:

مقدار آنتروپی Iاست. ثابتبرای تمام ویژگی ها تعداد کل نمونه ها و Nکه در رابطه ی باال،

باشد به عنوان جداساز Gین مقدار معیار است. همانند معیارهای قبلی، ویژگی ای که دارای بیشتر

انتخاب می شود.

Pمعيار نقطه 4.13هدف این معیار کاهش تعداد کالس های متمایز در هر زیردرخت پس از تقسیم بندی می

باشد. این معیار برای ویژگی های دسته ای ارائه شده است و برای ویژگی های با مقادیر عددی از نحوه

استفاده می کند به این صورت که در یک ویژگی C4.5ی اطالعات در درخت ی محاسبه ی سودمند

را از رابطه ی زیر بین هر کدام از مقادیر Pابتدا مقادیر را مرتب می کنند، سپس مقدار نقطه ی

را به عنوان سودمندی این ویژگی در نظر می گیرد. Pمحاسبه می کند و بزرگترین مقدار معیار نقطه

به شکل زیر تعریف می شود: Pمعیار نقطه

به ترتیب زیرمجموعه ی 2Sو 1Sشامل همه ی نمونه های یادگیری در گره فعلی باشد، Rاگر

به عنوان آستانه ی Pباال )زیرشاخه راست( و زیرمجموعه ی پایین )زیرشاخه ی چپ( با انتخاب مقدار

بیان می کند. 2Sو R ،1Sبه ترتیب تعداد کالس های متمایز را در S2Cو RC ،S1Cجداساز است.

n1(x) تعداد نمونه های متعلق به کالسi در مجموعه یx است. اگر مقادیر نمونه ها به صورت دسته

ای باشد، به تعداد مقادیر متمایز در ویژگی دسته ها، به جمالت رابطه ی باال اضافه می شود. در نهایت

به عنوان ویژگی جداساز انتخاب می شود. Pبزرگترین اندازه ی نقطه ویژگی با

عف حل مساله به کمک روش درخت تصمیم ضدر انتهای این گزارش به نقاط قوت و

پردازیم :می

توان به نکات زیر اشاره کرد :از مزایای درخت تصمیم می

در قالب یک سری قوانین بینی خود رادهد که پیشدرخت تصمیم به ما این توانایی را می -۹

بیان کنیم که برای سیستم قابل فهم باشد .

ها ندارد. بندی دادهدرخت تصمیم نیازی به محاسبات خیلی پیچیده برای دسته -2

باشد .درخت تصمیم برای انواع مختلف داده اعم از پیوسته و گسسته قابل استفاده می -١

بندی ها با تاثیرات بیشتر را در دستهدهد تا ویژگیمیدرخت تصمیم این امکان را به ما -4

اطالعات را تشخیص بدهیم .

توان به موارد زیر اشاره نمود :همچنین از معایب و نقاط ضعف این روش می

های هر کالس کم باشد ، آنگاه نرخ های درخت تصمیم اگر تعداد دادهدر بعضی از روش -۹

ود .رهای تست باال میخطا برای داده

کند زیرا برای هر گره باید معیار کارایی را برای ی زیادی را مصرف میاین روش حافظه -2

های مختلف ذخیره کند تا بتواند بهترین ویژگی را انتخاب کند .ویژگی

کنند ها استفاده میهای تصمیم تنها از یک ویژگی برای شاخه زدن گرهاکثر درخت -١

[6] ها دارای توزیع توام باشند .درصورتیکه ممکن است ویژگی

نتيجه گيری .7ها با ناظر به روش در این گزارش سعی بر این شد که ابتدا مکانیزم حل مساله طبقه بندی داده

و روشهای موجود برای انتخاب ویژگی در هر هیمدرد بررسی قرار درخت تصمیم را به طور مختصر مو

کند و مشکالت استفاده از این ها استفاده میاز آنتروپی دستهرا از روشهای ابتدایی که راس درخت

ها را به طور مختصر و با مثال توضیح دهیم و در ادامه به مدل کاملتر حل بندی دادهروش برای طبقه

هایی که دارای دامنه پیوسته های نویزی مقاوم بوده و همچنین برای دادهمساله که در مقابل داده

بل استفاده باشد ، پرداختیم و در ادامه روشهایی برای جلوگیری از یادگیری بیش از باشند نیز قامی

باشد که شامل روشهای هرس کردن درخت بود ، ارائه حد درخت که مشکل اساسی این روش می

در انتها به طور کلی به در ادامه گزارش به بررسی انواع روشهای ساختن درخت می پردازیم و دادیم و

بندی داده با استفاده از درخت تصمیم پرداختیم.معایب تقسیممزایا و

منابع [1] Mitchell, T. M., Machine Learning: McGraw-Hill International,

1997. [2] Quinlan, J. R., “Induction of Decision Trees,” Machine Learning 1,

pp. 81-06, 1986b [3] Decision Trees. CS540. Jerry Zhu. University of Wisconsin-Madison

2001 (http://www.autonlab.org/tutorials/dtree.html) [4] Alpaydin, E., Introduction to machine learning, 2'nd ed.:

Cambridge, MassMIT Press, 2010 ۹١88 - صنعتی امیرکبیردانشگاه –سعید شیری –ارائه یادگیری درخت تصمیم [5]

۹١۱1-دانشگاه خواجه نصیر طوسی –سمیه علیزاده –درخت تصمیم گیری [6] [7] Murphy, P. M. and Pazzani, M., "ID2-of-3: Constructive induction of

M-of-N concepts for discriminators in decision trees," Proceedings of the

Eighth International Workshop of Machine Learning, Morgan Kaufmann,

pp. 183-192, 1991. [8] Fisher, D. H. and Schlimmer, J., "Concept simplification and prediction accuracy," in Proceedings of the Fifth International Conference on

Machine Learning Ann Arbor, MI: Morgan Kaufmann, 1988, pp. 22-28. [9] Schlimmer, J. C. and Fisher, D., "A case study of incremental concept induction," in Proceedings of the Fifth National Conference on Artificial

Intelligence, P. M. K. Philadelpha, Ed., 1986, pp. 496-501.

[10] Utgoff, P. E., "An incremental ID3," in Proceedings of the Fifth

International Conference on Machine Learning, M. M. K. Ann Arbor, Ed.,

1988, pp. 107-120. [11] Qin, Z. and Lawry, J., "Decision tree learning with fuzzy labels,"

Information Sciences, vol. 172, pp. 91-129, 2005. [12] Utgoff, P. E., "Perceptron Trees: a Case Study in Hybrid Concept Representations," Connection Science, vol. 1, pp. 377–391, 1989b. [13] Aitkenhead, M. J., "A co-evolving decision tree classification

method," Expert Systems with Applications, vol. 34, pp. 18-25, 2008. [14] Kass, G. V., "An exploratory technique for investigating large

quantities of categorical data," Applied Statistics, vol. 29, pp. 119-127,

1980.

Documents

ميمصت تخرد یاهمتيروگلاfumblog.um.ac.ir › gallery › 412 › decision tree algorithm.pdfid3 ميمصت تخرد.2.2 شهاک ا ون ه ه|مآ وجوب یاه