מבחינה טכנולוגית, בסיס נתונים של יד ושם הוא הוא כלי/תוכנה שמאחסן את הנתונים ההיסטוריים על השואה ומאפשר שליפה, בדיקה ועדכון של חלקים מסוימים של נתונים באופן מהיר וקוהרנטי – DBMS database management system.
חיפוש מילות מפתח במאגר טקסטים הוא אתגר בכל שפה, ועל אחת כמה וכמה בעברית.
כידוע, 'עברית שפה קשה'. כמו בשפות שמיות אחרות, לרוב המילים בעברית יש נטיות רבות, ובייחוד לפעלים, הנוטים בכל הזמנים. כמעט לכל פועל יש לפחות 27 נטיות בסיסיות. חלק מהפעלים גם מאפשרים צירוף כינוי מושא חבור (שמע – 'שמעתיו', אהב – 'אהבתיה'), וזה מגדיל פי כמה וכמה את מספר הנטיות שלהם. בתחילת רוב המילים יכולות להצטרף גם אותיות השימוש, הידועות בראשי התיבות מש"ה וכל"ב: הבית, בבית, כשהלך. למילים רבות יש כתיב מלא וחסר, ובמילים לועזיות יש גם חלופות כתיב, כמו 'מוסיקה' ו'מוזיקה'. כל אלה מובילים להערכה שהעברית מורכבת מכ-70 מיליון צורות – מספר גדול בהרבה מאשר מספר הצורות האפשריות באנגלית ובמרבית השפות הנפוצות בעולם.
כמו כן, הכתיב הלא מנוקד בעברית אינו בהכרח מורה כיצד יש להגות כל מילה ומילה. לכן הרבה מילים נכתבות אותו דבר בלי ניקוד, גם בכתיב מלא, אך נהגות אחרת, כגון: סֵפֶר, סַפָּר, סָפַר (פועל) וסְפָר; כלומר, מילים רבות בעברית הן רב-משמעיות.
חיפוש מורפולוגי – חיפוש כל הנטיות של מילה כלשהי. לדוגמה, בחיפוש שם העצם 'איש' במנוע חיפוש רגיל, תתקבל רק הצורה כפי שהוקלדה: 'איש'. לעומת זאת, חיפוש מורפולוגי של מילה זו יחזיר את מגוון הנטיות שלה הקיימות בטקסט בצירוף כל אותיות השימוש האפשריות: כשלאיש, האנשים, לאנשֵי, ואנשיו וכיו"ב. בחיפוש מורפולוגי של הפועל 'ישב' יתקבלו נטיות מגוונות המצויות בטקסט בצירוף אותיות שימוש: כשישבתם, לכשתשבנה, יושבֵי, וישב, שְבוּ, בשבתו ועוד ועוד. גם צירופי מילים נכללים בחיפוש המורפולוגי. לדוגמה, מילות החיפוש 'יום הולדת' יובילו גם לתוצאות של 'יום ההולדת', 'ביום הולדתה', 'ימי הולדת' וכן הלאה.
מדובר על מסד נתונים השייך עקרונית לבסיסי נתונים רלציונים (יחסיים) בנויים מטבלאות כאשר כל טבלה מכילה מידע על ישות מסוימת.
זהו אחד ממאגרי המידע ההיסטוריים הדיגיטליים החשובים בעולם .
Commentaires