7.2. ID3ID3 היא התוכנית הידועה ביותר ללמידת מסווגים. התוכנית מקבלת כקלט קבוצת דוגמאות ומוציאה עץ החלטה המסווג נכון את כל הדוגמאות שניצפו. התוכנית מתחילה משורש העץ ומפתחת תתי עצים. ID3 תפתח צומת אם הוא מכיל דוגמאות חיוביות ושליליות, ותעצור אם כל הדוגמאות הן מאותו סוג. כל צומת מתפצל על תכונה מסוימת. התוכנית יוצרת תת עץ לכל ערך אפשרי של התכונה. קבוצת הדוגמאות מתחלקת לפי ערכי התכונה ותת הקבוצות מועברות לתת העצים. ההחלטה על איזו תכונה לפצל מתבססת על יוריסטיקה האומרת: נבחרת התכונה המביאה לתוספת מקסימלית של אינפורמציה. נכנה תכונה בשם תכונה אינפורמטיבית אם היא מחלקת את קבוצת הדוגמאות בצורה טובה. תוספת האינפורמציה (gain) – לכל תכונה נמדדת תוספת האינפורמציה. התכונה המביאה לתוספת האינפורמציה הגדולה ביותר נבחרת לפיצול. נסמן ב-p את מספר הדוגמאות החיוביות,
וב-n את מספר הדוגמאות השליליות, אז ההסתברות ליפול בקבוצת החיוביים
הינה אי הוודאות בצומת מוגדרת על ידי נוסחת שנון: כאשר אנחנו משנים מעט את log ומגדירים
כי אי הוודאות בבנים של צומת נקבע על ידי הממוצע המשוקלל של אי הוודאות בכל אחד מהם. תוספת האינפורמציה היא אי וודאות הצומת פחות אי הוודאות בבנים:
מה יקרה במידה ועברנו על כל הדוגמאות ועדיין לא הגענו לחלוקה מוחלטת לפי ערכים חיוביים וערכים שליליים? שתי אפשרויות:
האלגוריתם של ID3: נגדיר: I היא קבוצת הדוגמאות. ID3 (examples, Att) |
תוכן העניינים:
קישורים רלוונטיים:שיתוף: |
אבל הוא עדיין לא נפתח...