تأثير الفهرسة الدلالية
الهدف من هذه الدراسة هو اقتراح عرض شامل للتقنيات المختلفة حول الفهرسة وتأثير الدلالة في استرجاع المعلومات، وإنه مصمم للتغلب على مشكلة أساسية ابتليت بها تقنيات الاسترجاع الحالية التي تحاول مطابقة كلمات الاستعلامات مع كلمات المستندات.
وتكمن المشكلة في أن المستخدمين يريدون الاسترداد على أساس المحتوى المفاهيمي، والكلمات الفردية تقدم أدلة غير موثوقة حول الموضوع المفاهيمي أو المعنى الوثيق، وتشير المناقشات المتعلقة بتقنيات الويب الدلالي وتطوراتها إلى أن هناك اهتمامًا متزايدًا بالوصف الدلالي وهيكلة المحتوى.
والتطبيقات الرئيسية للتقنيات موجودة في مجالات استرجاع المعلومات مثل الويب الدلالي، وتجريد المستندات وكشف الموضوع والتصنيف التلقائي، وعادة ما تكون هناك طرق عديدة للتعبير عن مفهوم معين، وبالتالي فإن المصطلحات الحرفية في استعلام المستخدم قد لا تتطابق مع تلك الخاصة بالمستند ذي الصلة.
بالإضافة إلى ذلك فإن معظم الكلمات لها معانٍ متعددة، لذا فإن المصطلحات في استعلام المستخدم ستطابق حرفياً المصطلحات الموجودة في المستندات التي لا تهم المستخدم، والهندسة العامة المقصودة للفهارس الدلالية والموجهات الدلالية هي استعلامات يتلقاها فهرس للموضوعات التي لا يعالجها هذا الفهرس ثم يتم توجيهها دلاليًا إلى فهرس الجار.
وفي هذا السياق فإن القرب من الجار هو دالة للمسافة الدلالية بين الموضوعات التي يغطيها زوج من الفهارس، وسيشمل تحديد المسافة الدلالية بين الفهارس مقارنة المصطلحات المحددة في الأنطولوجيات الخاصة بهم، ولذا سوف يتم الحاجة إلى معالجة قضية عدم التجانس الدلالي بين الأنطولوجيات المختلفة.
وستستخدم مقارنة مصطلحات الأنطولوجيا هذه تقنيات لتقييم التشابه الدلالي لتحديد الفهرس الأفضل للإجابة على الاستعلام، وقد يستخدم وكلاء الفهرس تقنيات محددة من أجل التوصل إلى اتفاق حول دلالات المصطلح، من أجل العمل في بيئة مفتوحة وديناميكية مثل الفهارس، يجب أن تكون موجودة في بنية موزعة وغير مركزية وقابلة للتطوير.
استرجاع المعلومات والفهرسة الدلالية
تستخدم تطبيقات استرجاع المعلومات المتعلقة بالوثائق النصية مصطلحات فهرس النص الحر التي يتم إنشاؤها تلقائيًا، والتي يتم ترجيحها حسب التكرار الإحصائي للمصطلحات في المستندات والمجموعات، ومن ناحية أخرى فإن السمات المميزة للمؤشر الدلالي هي أن العلاقات الدلالية توجد بين مصطلحات الفهرس الخاضعة للرقابة.
وعادةً ولكن ليس بالضرورة نتيجة الفهرسة اليدوية، وروابط الوسائط التشعبية المفهرسة معنويًا بحكم التعريف محسوبة وفقًا لروابط الاسترجاع متعدد الأبعاد، ويتيح ذلك إمكانية استخدام أدوات تنقل مرنة قائمة على الاستعلام.
ويُطلق على الحقل الفرعي لعلوم الكمبيوتر الذي يتعامل مع التخزين الآلي واسترجاع المستندات اسم استرجاع المعلومات، وقد تغير بشكل كبير في السنوات الأخيرة مع توسع الويب وشبكة الويب العالمية وظهور الرسوم البيانية الحديثة وغير المكلفة لواجهات المستخدم وأجهزة التخزين كبيرة السعة.
وبالنسبة للعديد من العلماء فإن الغرض من نظام استرجاع المعلومات هو معالجة ملفات السجلات وطلبات المعلومات، وتحديد واسترجاع سجلات معينة من الملفات لاستجابة لطلبات المعلومات، ويعتمد استرداد سجلات معينة على التشابه بين السجلات والاستعلامات، والتي تقاس بدورها من خلال مقارنة قيم سمات معينة بالسجلات وطلبات المعلومات.
ومصطلح الفهرسة تم استخدامه على نطاق واسع للإشارة إلى عملية بناء مثل هذه التمثيلات، وتم تطوير تقنيات الفهرسة من أجل إتاحة التعرف على محتوى المعلومات للوثائق سواء كانت مستندات نصية أو وسائط تشعبية أو وسائط متعددة.
وبشكل عام تسمح الفهارس بتمثيل المعرفة حول مجال ما من أجل تسهيل الوصول إلى المعلومات، وإنه يعني ببساطة الإشارة إلى أو الإشارة إلى محتوى الرسائل والنصوص والوثائق ومعناها والغرض منها وخصائصها.
وتعتمد الفهرسة التقليدية على تعيين التسميات الدلالية أو الكتابة الرسمية إلى الروابط المؤلفة، عادةً ما يتم الحصول على فهرسة مستند نصي من خلال تحديد مجموعة من المصطلحات أو الكلمات الأساسية التي تميز محتوى المستند وهي المصطلحات التي تصف الموضوعات التي تتناولها الوثيقة.
ويمكن تصنيف أنظمة الفهرسة على ثلاثة أبعاد:
1- يتم اشتقاق شروط الفهرس تلقائيًا أو تعيينها يدويًا.
2- تنتمي مصطلحات الفهرس إلى مفردات مضبوطة أو غير مضبوطة.
3- يمكن دمج المصطلحات كسلاسل مرتبة تمثل مفهومًا واحدًا عند الفهرسة المصطلحات المنسقة مسبقًا، على سبيل المثال رابطة آلات الحوسبة، أو يجب تنسيقها لاحقًا عند الاسترجاع.
ومع ذلك قد يسمح التنسيق اللاحق بإمكانية إرجاع العناصر التي ليس لها صلة بالمصطلحات المختلفة في السلسلة إيجابيات خاطئة، ومع ذلك إذا كانت الموارد نصوصًا تشعبية، يتم تحديد الفهارس من خلال روابط مؤلفة بشكل واضح، بالإضافة إلى كل عنصر معلومات مفهرس بمصطلحات واصفة قد يتطلب الأمر أكثر من مصطلح واحد.
ويمكن فصل مساحات الفهرس والوثائق في نص تشعبي، حيث تسمح التوافقات المختلفة لتلك المساحات بإمكانيات مختلفة في التفكير الآلي، وسيتم التركيز الآن على النوع الأول من الفهرسة في القائمة، نظرًا لأنه الأكثر استخدامًا ويمكن أن يسمح لجميع أنواع الموارد.
ويمكن أن تكون الفهرسة يدوية أو تلقائية، ويعتمد الأول على التحليل البشري بينما يعتمد الأخير على استخدام نوع من الخوارزمية، وعادةً ما يكون التعلم الآلي، فعند مقارنة دراسة أجراها النهجين مع الأخذ في الاعتبار الجوانب المختلفة للفهرسة يتم تلخيص إلى إنه لا يوجد دافع حقيقي لتفضيل نهج على الآخر.
ومع ذلك هناك بعض الاعتبارات المتعلقة بالمجال ونوع المستندات المطلوب فهرستها وعدد المستندات المتاحة، ويمكن أن تكون الفهرسة اليدوية مكلفة إلى حد ما وقد يصبح من الصعب تنفيذها مع مجموعات كبيرة جدًا من المستندات مثل تلك المخزنة في المكتبات الرقمية.
علاوة على ذلك فهي ليست مرنة بدرجة كافية لدعم استراتيجيات الفهرسة المختلفة، من ناحية أخرى تكون الفهرسة التلقائية أقل تكلفة في الأداء ويمكنها بسهولة دعم استراتيجيات الفهرسة المختلفة، ولكنها قد تؤدي إلى فهرسة أقل دقة، لأنه يعتمد على بعض الصيغ الرياضية أو الإحصائية وليس على فهم حقيقي لدلالات المصطلحات المستخدمة في الفهرسة.
وقد يكون الحل هو تطبيق الفهرسة التلقائية بشكل عام، والاحتفاظ بالفهرسة اليدوية للوثائق المهمة، حيث يتم تقييم الأهمية من خلال بعض القواعد العامة، مثل الاستخدام والاستشهاد، وعيب آخر من الفهرسة اليدوية التي يمكن توقعها هي إنه لا يمكن إجراؤها ديناميكيًا، أي إنه في كل مرة يتم اكتشاف مورد جديد، يجب فهرسته قبل أن يتم تضمينه في المجموعة المستخدمة لاسترداد المعلومات.
تقنيات الفهرسة البسيطة
تعتمد أبسط تقنيات الفهرسة التلقائية على توفير تعداد لكل تكرار لكلمة أو مصطلح في المستند، وهذا يثير مسألة ما يمكن اعتباره كلمة لأغراض فهرسة المستند، وعادةً ما يتم تعريف الكلمة على أنها حرف واحد أو أكثر مفصولة بمسافات أو علامات ترقيم على الأقل للغة الإنجليزية واللغات الغربية الأخرى.
ومع ذلك فإن هذا التعريف ليس كافيًا، لأنه لا يشرح كيفية التعامل مع علامات الترقيم، وخاصة عندما يتم اعتبار علامة الترقيم جزءًا من كلمة ومتى يجب اعتبارها كمحدد للكلمة، فعلامات الترقيم الأكثر إشكالية هي الواصلات والشرطات المائلة، حيث يمكن استخدامها لإنشاء كلمة من كلمتين، مثل الخاصية الوصفية.
وهناك طرق مختلفة تتعلق بكيفية التعامل مع هذه المواقف، حيث تتعامل بعض خوارزميات الفهرسة مع الواصلة على أنها مسافة تحديد كلمتين، والبعض يتجاهل فقط الواصلة وبالتالي تمثل كلمة واحدة فقط، والبعض الآخر يعتبر جميع التركيبات الممكنة على سبيل المثال، على الخط، عبر الإنترنت، وعبر الإنترنت ستُحسب على أنها 3 تكرارات لنفس الكلمة.
وترتبط المشكلات الأخرى بالنظر إلى الأرقام والأحرف الفردية لذلك تتكون خوارزمية الفهرسة البسيطة من مبادئ تحديد مجموعات الأحرف هي الكلمات ووسائل حساب تكراراتها، وهي استراتيجية المطابقة وعرض الإخراج.