תשובה 1:

שקית מילים ומרחב וקטורי מתייחסים לגישות השונות של סיווג גוף המסמך.

בשקית מילים אתה יכול לחלץ רק את מילות ה- unigram ליצירת רשימת מילים לא מסודרת ללא תיוג תחבירי, סמנטי ותקני קופה. חבורת המילים הזו מייצגת את המסמך.

במודל חלל וקטורי, זהו מודל אלגברי המשמש לייצוג מסמכים כווקטורים. מתוך שקית המילים הנתונה אתה יכול ליצור וקטור מסמך תכונה שבו כל תכונה היא מילה והערך שלה הוא משקל מונח.

בצה"ל הוא מונח המשקל המיוצג במודל החלל הווקטורי.

לפיכך המסמך כולו הוא וקטור תכונה. שמצביע על נקודה במרחב וקטורי כך שיש ציר לכל מונח בתיק שלנו.

זה עשוי לעזור לך >> שקית מילים לעומת מודל חלל וקטורי?