كيفية التعرف على الصوت والاستجابة في الوسائط المتعددة

اقرأ في هذا المقال


يعد التعرف على الصوت والاستجابة الصوتية أسهل طريقة لتوفير واجهة مستخدم لإدخال البيانات وحوسبة المحادثة، نظرًا لأن الكلام هو أسهل وسيلة للاتصال البشري وأكثرها طبيعية، فقد أصبح الإدخال الصوتي للبيانات وإخراجها ممكنًا تقنيًا واقتصاديًا لـ مجموعة متنوعة من التطبيقات.

ما هي أنظمة التعرف على الصوت

تقوم أنظمة التعرف على الصوت بتحليل وتصنيف أنماط الكلام أو المسالك الصوتية وتحويلها إلى رموز رقمية للدخول إلى نظام الكمبيوتر، حيث تتطلب معظم أنظمة التعرف على الصوت “تدريب” الكمبيوتر للتعرف على مفردات محدودة من الكلمات القياسية لكل مستخدم.

كما يقوم المشغلون بتدريب النظام على التعرف على أصواتهم من خلال تكرار كل كلمة في المفردات حوالي (10) مرات، حيث تحقق الأنظمة المدربة بانتظام معدل التعرف على الكلمات بنسبة (99٪)، وتُستخدم أنظمة التعرف على الصوت المستقلة عن مكبرات الصوت، والتي تسمح للكمبيوتر بفهم صوت لم يسمع به من قبل، في عدد محدود من التطبيقات.

وتُستخدم أجهزة التعرف على الصوت في مواقف العمل حيث يحتاج المشغلون إلى إدخال البيانات دون استخدام أيديهم لإدخال البيانات أو التعليمات، على سبيل المثال، يتم استخدام أنظمة التعرف على الصوت من قبل الشركات المصنعة للفحص والمخزون ومراقبة الجودة لمجموعة متنوعة من المنتجات.

ومن قبل شركات الطيران وشركات توصيل الطرود للفرز الصوتي للأمتعة، التعرف على الصوت متاح أيضًا لبعض حزم برامج الحواسيب الصغيرة للإدخال الصوتي للبيانات والأوامر، ومع ذلك، من المتوقع أن يصبح الإدخال الصوتي شائعًا جدًا لمعظم تطبيقات معالجة الكلمات في السنوات القليلة المقبلة.

ما هي أجهزة الاستجابة الصوتية

تتراوح أجهزة الاستجابة الصوتية من وحدات الاستجابة الصوتية المركزية إلى أجهزة الكمبيوتر الصغيرة للرسائل الصوتية إلى المعالجات الدقيقة لمُركِّب الكلام، يمكن العثور على معالجات الكلام الدقيقة في الألعاب والآلات الحاسبة والأجهزة والسيارات ومجموعة متنوعة من المنتجات الاستهلاكية والتجارية والصناعية الأخرى، كما تستخدم وحدات الكمبيوتر الصغير للرسائل الصوتية ووحدات الاستجابة الصوتية للحواسيب المركزية برامج الاستجابة الصوتية لتوجيه المشغل شفهياً عبر خطوات مهمة في العديد من أنواع الأنشطة.

قد تسمح أيضًا لأجهزة الكمبيوتر بالاستجابة للإدخال اللفظي واللمسي عبر الهاتف، حيث تتضمن أمثلة التطبيقات تحويل المكالمات الهاتفية المحوسبة، واستطلاعات التسويق عبر الهاتف، وخدمات دفع الفواتير المصرفية عبر الهاتف، وخدمات عروض أسعار الأسهم، وأنظمة التسجيل بالجامعة، واستفسارات ائتمان العملاء ورصيد الحساب.

ما هي متطلبات أنظمة التعرف على الصوت

لكي تعمل ميزة التعرف على الصوت، يجب أن يكون لديك جهاز كمبيوتر مزود ببطاقة صوت وميكروفون أو سماعة رأس، تحتوي الأجهزة الأخرى مثل الهواتف الذكية على جميع الأجهزة الضرورية المضمنة في الجهاز، أيضًا، يحتاج البرنامج الذي تستخدمه إلى دعم التعرف على الصوت، أو إذا كنت تريد استخدام التعرف على الصوت في كل مكان، فأنت بحاجة إلى تثبيت برنامج مثل (Nuance Naturally Speaking)، وإذا كنت تستخدم نظام التشغيل (Microsoft Windows Vista أو 7 أو 8 أو 10)، فيمكنك أيضًا استخدام برنامج (Windows Speech Recognition) المضمن.

الأماكن التي تستخدم فيها ميزة التعرف على الصوت

مع تحسن ميزة التعرف على الصوت، يتم تنفيذه في أماكن أكثر ومن المحتمل جدًا أنك استخدمته بالفعل، فيما يلي بعض الأمثلة على الأماكن التي قد تواجه فيها ميزة التعرف على الصوت:

  • أنظمة الهاتف الآلية: تستخدم العديد من الشركات اليوم أنظمة الهاتف التي تساعد في توجيه المتصل إلى القسم الصحيح، إذا طُلب منك يومًا ما شيئًا مثل “قل أو اضغط على الرقم 2 للحصول على الدعم” وقلت “اثنان”، فهذا يعني أنك استخدمت التعرف على الصوت.
  • صوت جوجل (Google Voice): (Google voice) هي خدمة تتيح لك البحث وطرح الأسئلة على جهاز الكمبيوتر والجهاز اللوحي والهاتف.
  • المساعد الرقمي: تستخدم (Amazon Echo و Apple’s Siri و Google Assistant) التعرف على الصوت للتفاعل مع المساعدين الرقميين الذين يساعدون في الإجابة عن الأسئلة.
  • بلوتوث السيارة: بالنسبة للسيارات المزودة بالبلوتوث أو اقتران الهاتف غير اليدوي، يمكنك استخدام التعرف على الصوت لإصدار أوامر، مثل “اتصل بزوجتي” لإجراء مكالمات دون إبعاد عينيك عن الطريق.

أنواع أنظمة التعرف على الصوت

التعرف التلقائي على الكلام هو أحد الأمثلة على أنواع التعرف على الصوت، فيما يلي أنواع أخرى لأنظمة التعرف على الصوت:

1. نظام يعتمد على مكبر الصوت

تعتمد هذه الأنظمة على معرفة صوت المتحدث، والتعلم الآلي هو جزء أساسي من هذا لأنه يحلل البيانات ويتعرف على أنماط المستخدم، بفضل هذه التقنية، يمكن للمحاور الذكية فهم العبارات والكلمات التي يستخدمها الشخص، بمعنى آخر، يتم تدريبها من قبل المستخدم، هذا يعني أيضًا أن النظام أكثر دقة بالنسبة لصوت الشخص؛ اعتمادًا على السمع.

2. نظام مكبر الصوت المستقل

يمكن للنظام المستقل عن المتحدث التعرف على الكلمات من مجموعة واسعة من السياقات وفهم الكلمات بغض النظر عمن يتحدث، حيث يفهم مجموعة من أنماط الكلام وتقلباته ونغماته، ستكون معظم الأنظمة المصممة للمكالمات الهاتفية مستقلة عن المتحدث.

3. نظام التعرف على الكلام المنفصل

عندما يتعلق الأمر بالتعرف المنفصل على الكلام، يجب أن يكون المستخدم أكثر حرصًا بشأن جمل العبارات، إنه بحاجة إلى التوقف بين الكلمات حتى يفهمها البرنامج.

4. نظام التعرف المستمر على الكلام

يوضح هذا كيف نتحدث بشكل طبيعي، مما يعني أنك لست بحاجة إلى التوقف مؤقتًا بين كل كلمة لفهم ما تقوله، الأدوات المصممة للكتابة ستستفيد من هذا النوع من التعرف على الصوت.

5. نظام التعرف على اللغة الطبيعية

لا يمكن لميزة التعرف على الكلام فهم الصوت فحسب، بل يمكنها أيضًا إرجاع إجابات للأسئلة أو الاستفسارات الأخرى التي يتم طرحها.

مزايا وعيوب التعرف على الصوت

على الرغم من أن العديد من الأشخاص يعتبرون التعرف على الصوت جزءًا من مستقبلنا، إلا أن هناك بعض العيوب التي يجب مراعاتها، فيما يلي مزايا التعرف على الصوت:

  • يمكن أن يساعد في زيادة الإنتاجية في العديد من الشركات، مثل صناعات الرعاية الصحية.
  • يمكنه التقاط الكلام بشكل أسرع بكثير مما يمكنك كتابته.
  • يمكنك استخدام ميزة تحويل النص إلى كلام في الوقت الفعلي.
  • يمكن للبرنامج تهجئة نفس القدرة مثل أي أداة كتابة أخرى.
  • يساعد أولئك الذين يعانون من مشاكل في الكلام أو البصر.

أما عيوب أنظمة التعرف على الصوت فتكمن في ما يلي:

  • يمكن تسجيل البيانات الصوتية، والتي يخشى البعض أنها قد تؤثر على الخصوصية.
  • يمكن أن يعاني البرنامج من صعوبة في استخدام المفردات، خاصةً إذا كانت هناك مصطلحات متخصصة.
  • يمكن أن يسيء تفسير الكلمات إذا لم تتحدث بوضوح.

المصدر: Fundamentals_of_Multimedia / Ze-Nian Li Mark S. Drew Jiangchuan Liu Second EditionMultimedia Image and Video Processing / Edited ByLing Guan, Sun-Yuan Kung, Jan LarsenVideo and Image Processing in Multimedia Systems / Authors: Borko Furht, Stephen W. Smoliar, HongJiang ZhangMultimedia Animation / Clarence Lamb, Kirk Keller


شارك المقالة: