 |
| |
מורפיקס - מנוע החיפוש האולטימטיבי לשפות מורפולוגיות
|
|
|
מורפיקס
הוא מותג המאחד את כל מנועי החיפוש והמילונים הדו-לשוניים של חברת מלינגו. השם מורכב מצירוף של המילים Morphology ו-Fix, והמשמעות היא טיפול נכון בבעיות מחשוב שיוצרת המורפולוגיה.
|
חיפוש טקסט ברשת הוא מאבני היסוד של
האינטרנט. קיימים שני סוגים עיקריים של חיפושים: חיפוש כללי
ברשת, וחיפוש בתוך תוכן ספציפי של אתר. מורפיקס
הוא מנוע חיפוש בעל תכונות ייחודיות אשר בא לתת מענה לחיפוש טקסט משני הסוגים הנ"ל, בשפות המתאפיינות במורפולוגיה עשירה.
|
מנוע חיפוש נמדד ביכולתו לענות בהצלחה על השאילתות, בשלושה פרמטרים עיקריים: הבאת מקסימום הדפים שבהם מופיעות מילות חיפוש (Recall); הבאת דפים רלוונטיים ומניעת הופעת דפים בלתי רלוונטיים בתוצאה (Precision); ודירוג נכון בין התוצאות המתקבלות (Results Rating).
|
המרכיב של עיבוד שפה טבעית (Natural Language Processing) הוא חשוב לכל הפרמטרים של החיפוש ברשת אם יש בשפה מרכיב מורפולוגי חזק (הטיות). בשפות כמו עברית וערבית, שבהן המורפולוגיה עשירה ביותר (בניגוד לאנגלית), חשיבותו של הניתוח המורפולוגי היא קריטית. גם בשפות העומדות במרכז הסקאלה המורפולוגית, כמו השפות הלטיניות (איטלקית, ספרדית, צרפתית) יש חשיבות רבה לחיפוש המורפולוגי.
|
מנוע החיפוש מורפיקס
הוא מנוע ראשון וייחודי, אשר כולל ניתוח לשוני של מילות החיפוש ושל האתרים עצמם. ביישום לגבי השפה העברית, ניתן לראות שבהשוואה למנועים הקיימים ללא NLP, המנוע משיג שיפור דרמטי בכל הפרמטרים של החיפוש.
|
הניתוח הלשוני של מורפיקס כולל:
|
מורפולוגיה הטיות
: חיפוש הערך "נשים" יביא גם "אישה", "אישתי", "נשותינו" וכו'; חיפוש הערך "ללמוד" יביא גם "למידה", "לימוד" וכו'. תחביר ניתוח הקשר
(Context)
: חיפוש הערך "תה" יביא "בתה האנגלי" אך לא את "בתה הקטנה". סאונדקס איות
שמות
: חיפוש הערך "מבארק" יביא גם "מוברק", "מובארכ" וכו'. כתיב מלא וחסר
: חיפוש "מיזוג אוויר" יביא גם "מיזוג אויר", "מזוג אוויר"; חיפוש "פרויקט" יביא גם "פרוייקט". כתיבים שונים
: חיפוש "מוסיקה" יביא גם "מוזיקה"; חיפוש "שאילתה" יביא גם "שאילתא"; חיפוש "פלסטין" יביא גם "פלשתין", "פלסטינים", "פלשתינאים". בדיקת כתיב
: מורפיקס מתקן שגיאות כתיב במילות החיפוש. תזאורוס
: חיפוש מילים נרדפות. חיפוש "בראוזר" יביא גם "דפדפן"; חיפוש "פרוייקט" יביא גם "מיזם". דירוג דפים
על פי חשיבות המופע בתוך המסמך.
|
בנוסף לניתוח הלשוני, תכונה חשובה נוספת של מורפיקס היא הבאת הטקסט הרלוונטי לחיפוש מתוך המסמך מיד עם קבלת התוצאות, תוך הדגשת המילים שנמצאו. תכונה זו הכרחית במיוחד בשפות מורפולוגיות, שכן ללא ההדגשה אין לגולש מושג מדוע נכלל אתר מסוים בתוצאות.
|
מנוע מורפיקס משלב טכנולוגיית NLP מתקדמת וייחודית, אשר פותחה במשך כעשר שנים במט"ח, בשיתוף פרופ' יעקב שויקה, ואשר משולבת בכל יישומי אחזור המידע הגדולים בישראל, ובכללן בקהיליית המודיעין. טכנולוגיית אינדוקס ייחודית מאפשרת ביצוע השאילתות במהירות גבוהה ביותר, ללא קשר למורכבות המורפולוגית של התוצאות.
|
הטכנולוגיה של מורפיקס מתאימה לכל שפה שיש בה מורפולוגיה עשירה.
|
|
|
|
|