ABDULLAH JANEM
03-06-2010, 10:35 PM
في عصر يتسارع فيه تدفق الأخبار من عدة مصادر يستطيع مستخدمو الويب الحصول على المعلومات حال نشرها وبطريقة آنية. ففي هذا العصر الذي أطلق عليه عصر ويب الوقت الحقيقي (Real-Time ***) والمستند على مفهوم الإعلام الجديد يستطيع الكل أن يتحول إلى مراسل إخباري ويقوم بنشر الأخبار حال حدوثها. فخدمات مثل الفيسبوك ويوتيوب وتويتر سهلت عملية التحول إلى الإعلام الجديد والشواهد على ذلك كثيرة، بدءا من مشكلة إيران وحتى زلزال هايتي. * غير أن هناك ثمة تساؤل يجب أن يطرحه أي مطلع دائم على الأخبار التي تصدر من أفراد أو جهات غير معروفة، هو ما مدى موثوقية الخبر المطروح؟ وهل هناك أدوات تساعد على قياس الموثوقية على الويب؟
للإجابة على هذا التساؤل عملت الباحثة رشا بنت محمد العيدان، الحاصلة على درجة الماجستير مؤخرا في علوم الحاسب من كلية علوم الحاسب والمعلومات بجامعة الملك سعود، على تطوير أداة لقياس موثوقية المحتوى العربي المطروح في موقع تويتر والمتخصص بالأخبار السياسية.
* هل لنا بتوضيح بسيط عن أداة قياس موثوقية تويتر؟
- الآلية التي اتبعناها لقياس موثوقية تويتر مرت بمرحلتين: الأولى هي تحديد العوامل المؤثرة على موثوقية تويتر والتي سوف يتم التركيز على قياسها, والثانية هي بناء النظام لتحليل وقياس الموثوقية لأي نص مدخل.
ففي مرحلة تحديد العوامل أو الخصائص: وكما ذكرنا سابقا فإن قياس الموثوقية يجب أن يأخذ في اعتباره جوانب متعددة, وحيث أن هذا هو العمل الأول من نوعه والذي يهدف لقياس موثوقية محتوى تويتر سواء تجريبياً أو آليا, فإننا اضطررنا لاستخدام الطرق التجريبية على عينة ذات حجم صغير تم جمعها في فترة تقارب الأسبوعين لاستخلاص أهم الخصائص المؤثرة على موثوقية تويتر. بعدها قمنا بتقسيم هذه الخصائص إلى خصائص لها علاقة بمحتوى النص ذاته وخصائص لها علاقة بكاتب النص وهو مستخدم تويتر. فماله علاقة بالمحتوى يحتوى على ثلاث خصائص مهمة وهي: التشابه مع المصادر الموثوقة, وجود روابط توجه إلى مصادر إخبارية ذات مصداقية عالية, وأيضاً خلو الخبر من الكلمات غير المناسبة أو غير اللائقة. وفيما يخص مستخدم تويتر تم جمع المعلومات اللازمة عن طريقة خدمات الويب *** Services المقدمة من موقع تويتر نفسه وموقع آخر وهو Twittergrade.com. بعد تحديد الخصائص تأتي مرحلة بناء النظام وحساب هذه الخصائص آليا لاعطاء الحكم الأخير، الشكل 2 يوضح الإطار العام للنظام.
إن أداة موثوقية تويتر تتكون من خمس مكونات أو مراحل وهي : إدخال البيانات, تحليل ومعالجة النص, استخلاص وحساب الخصائص, حساب درجة الموثوقية باستخدام معادلة حسابية تم بناؤها من الخصائص التي تم استخلاصها, وأخيراً ترتيب النتائج وعرضها على المستخدم على حسب درجة موثوقيتها والتي تم تصنيفها إلى ثلاث فئات "موثوق جدا" "متوسط الموثوقية" و"غير موثوق".
بتفصيل أكثر فإن مدخلات النظام عبارة عن نصوص تويتر التي يريد المستخدم قياس مصداقيتها والنصوص الموثقة من المصادر الإخبارية. وهذه النصوص سوف تمر بمرحلة تقسيم وتحليل للنص من أجل تهيئته للدخول في أهم مرحلة وهي مرحلة حساب الخصائص. ففي مرحلة حساب الخصائص يتم حساب أهم خاصية وهي التوافق مع ما يذكر في المصادر الموثقة عن طريق قياس مدى التشابه بين محتوى الخبر في تويتر مقارنة بالموضوع ذاته في مصادرنا الإخبارية الموثوقة على الإنترنت مثل وكالة الأنباء السعودية, وذلك باستخدام أحد خوارزميات التشابه المشهورة التي تحسب تردد الكلمات المفتاحية بين نصين مختلفين. يأتي بعد ذلك حساب الخصائص الأخرى عن طريق الكشف عن الكلمات غير اللائقة وأيضاً الكشف عن الروابط في النص ومدى مصداقيتها بمساعدة خدمة الويب المقدمة من أنتايني Untiny لفك الروابط القصيرة والاستعانة أيضاً بخبراء في مجال السياسة لتقييم مصداقية ما توجه إليه هذه الروابط من مواقع إخبارية. إضافة إلى ذلك حساب الخصائص المتعلقة بكاتب النص عن طريق خدمات الويب المتوفرة كما أسلفنا. وفي النهاية سوف تعرض النصوص على المستخدم بدرجات مختلفة حسب مصداقيتها اعتماداً على الدرجة المحصلة لكل نص باستخدام معادلة المصداقية.
لماذا اخترت تويتر دوناً عن غيره من أوعية نشر الأخبار في الويب؟
- تعتبر تويتر أداة سريعة لنشر الأخبار بين ملايين المستخدمين والذي يصل عددهم قرابة ثلاثة وسبعين مليون زائر للموقع يومياً كما نص على ذلك موقع أليكسيا المتخصص في جمع المعلومات عن مواقع الويب, وبالتحديد فإن عدد المستخدمين يصل إلى قرابة 6753 مستخدما ضمن قارة آسيا فقط اعتماداً على دراسة لجافا وآخرين عام 2007. إضافة إلى أن من أهم المهام التي يقوم بها مستخدمو تويتر بجانب المحادثات اليومية هي نشر الأخبار وتبادلها إما بكتابة مختصر الخبر أو التوجيه إلى رابط اخر.
ففي ظل هذا الكم الهائل من المعلومات المستمرة والمتابعة والتي لا تكاد تخلو من الشائعات أو الاخبار غير الموثوقة, فإن المستخدم سيقف حائراً أمامها, وبالتالي فهو يحتاج إلى أدوات آلية حاسوبية إما لمساعدته على اتخاذ القرار المناسب عن مصداقية هذه المعلومة عن طريق عرضها له بطريقة معينة, أو لإعطائه الحكم الأخير باستخدام قياسات وحسابات آلية دقيقة.
* ما هي أهم نتائج الدراسة؟
- بعد القيام بتجربة على عينة من النصوص والتي تم جمعها من تاريخ 27 ديسمبر 2009 وحتى 6 يناير 2010 وفي أحد المواضيع الساخنة هذه الأيام وهو موضوع "الحوثيون" اتضح من خلال ذلك وكما يظهر في شكل 3, أن نسبة كبيرة من النصوص كانت مصداقيتها قليلة مما يمكننا من القول ان أغلب ما ينشر في تويتر من محتوى إخباري عربي هي أخبار غير موثقة وغير قابلة للتصديق. وفي المقابل قد يكون السبب في ذلك هو أن ماتم اختياره من مواضيع تحت التجربة كالأخبار المتعلقة بمصرع زعيم الحوثيين كان محل جدل ونقاش ولم يؤكد من قبل المصادر الإخبارية في ذلك الوقت.
ولتقييم كفاءة هذا النظام قمت بالاستعانة بخبراء في المجال السياسي إضافة إلى أشخاص مهتمين بالأخبار ومن ثم مقارنة نتائجهم بالنتائج التي توصل إليها النظام ولقد كانت النتيجة أن وصل النظام إلى دقة 0.52 من 1 والتي تعتبر نسبة مقبولة كأول عمل يقدم في هذا المجال. الشكل 4 يوضح مقارنة بين نتائج النظام ومتوسط التقييم من قبل الخبراء.
* ما هي نصائحك في موثوقية المحتوى العربي على الويب؟
- المحتوى العربي على الويب في نمو وتزايد وهذا التزايد يعتبر مشكلة تحتاج إلى مواجهة من قبل الباحثين في علم المعلومات وعلوم الحاسب لتطوير أدوات آلية حاسوبية إما لضبط هذه المحتوى أو لتقيم أي معلومة قبل تصديقها.
وفي المستقبل القريب نسعى لتفعيل هذا النظام على الويب ليكون كمحرك بحث لتويتر. إضافة إلى أنه يمكن تطبيق ذلك على أنواع مختلقة من مواقع الويب مثل موقع الفيس بوك, المنتديات, المدونات.. الخ. ومن جهة أخرى يمكن النظر إلى معلومات أخرى أكثر أهمية على الويب مثل المعلومات الصحية والتي قد يؤثر الخطأ فيها على صحة المستخدمين. والأهم من ذلك فإن المحتوى العربي يحمل في طياته الكثير من الموروث الإسلامي وأهم مرجعين لنا هما كتاب الله وسنة رسوله صلى الله عليه وسلم والتي لا يشك في مصداقيتها ولكن قد تتعرض لوجود أخطاء أو حتى تحريف وبالتالي كان لزاماً علينا تسخير أدوات مماثلة موجهة لهذا النوع من النصوص خدمةً لديننا وللغة القرآن.
للإجابة على هذا التساؤل عملت الباحثة رشا بنت محمد العيدان، الحاصلة على درجة الماجستير مؤخرا في علوم الحاسب من كلية علوم الحاسب والمعلومات بجامعة الملك سعود، على تطوير أداة لقياس موثوقية المحتوى العربي المطروح في موقع تويتر والمتخصص بالأخبار السياسية.
* هل لنا بتوضيح بسيط عن أداة قياس موثوقية تويتر؟
- الآلية التي اتبعناها لقياس موثوقية تويتر مرت بمرحلتين: الأولى هي تحديد العوامل المؤثرة على موثوقية تويتر والتي سوف يتم التركيز على قياسها, والثانية هي بناء النظام لتحليل وقياس الموثوقية لأي نص مدخل.
ففي مرحلة تحديد العوامل أو الخصائص: وكما ذكرنا سابقا فإن قياس الموثوقية يجب أن يأخذ في اعتباره جوانب متعددة, وحيث أن هذا هو العمل الأول من نوعه والذي يهدف لقياس موثوقية محتوى تويتر سواء تجريبياً أو آليا, فإننا اضطررنا لاستخدام الطرق التجريبية على عينة ذات حجم صغير تم جمعها في فترة تقارب الأسبوعين لاستخلاص أهم الخصائص المؤثرة على موثوقية تويتر. بعدها قمنا بتقسيم هذه الخصائص إلى خصائص لها علاقة بمحتوى النص ذاته وخصائص لها علاقة بكاتب النص وهو مستخدم تويتر. فماله علاقة بالمحتوى يحتوى على ثلاث خصائص مهمة وهي: التشابه مع المصادر الموثوقة, وجود روابط توجه إلى مصادر إخبارية ذات مصداقية عالية, وأيضاً خلو الخبر من الكلمات غير المناسبة أو غير اللائقة. وفيما يخص مستخدم تويتر تم جمع المعلومات اللازمة عن طريقة خدمات الويب *** Services المقدمة من موقع تويتر نفسه وموقع آخر وهو Twittergrade.com. بعد تحديد الخصائص تأتي مرحلة بناء النظام وحساب هذه الخصائص آليا لاعطاء الحكم الأخير، الشكل 2 يوضح الإطار العام للنظام.
إن أداة موثوقية تويتر تتكون من خمس مكونات أو مراحل وهي : إدخال البيانات, تحليل ومعالجة النص, استخلاص وحساب الخصائص, حساب درجة الموثوقية باستخدام معادلة حسابية تم بناؤها من الخصائص التي تم استخلاصها, وأخيراً ترتيب النتائج وعرضها على المستخدم على حسب درجة موثوقيتها والتي تم تصنيفها إلى ثلاث فئات "موثوق جدا" "متوسط الموثوقية" و"غير موثوق".
بتفصيل أكثر فإن مدخلات النظام عبارة عن نصوص تويتر التي يريد المستخدم قياس مصداقيتها والنصوص الموثقة من المصادر الإخبارية. وهذه النصوص سوف تمر بمرحلة تقسيم وتحليل للنص من أجل تهيئته للدخول في أهم مرحلة وهي مرحلة حساب الخصائص. ففي مرحلة حساب الخصائص يتم حساب أهم خاصية وهي التوافق مع ما يذكر في المصادر الموثقة عن طريق قياس مدى التشابه بين محتوى الخبر في تويتر مقارنة بالموضوع ذاته في مصادرنا الإخبارية الموثوقة على الإنترنت مثل وكالة الأنباء السعودية, وذلك باستخدام أحد خوارزميات التشابه المشهورة التي تحسب تردد الكلمات المفتاحية بين نصين مختلفين. يأتي بعد ذلك حساب الخصائص الأخرى عن طريق الكشف عن الكلمات غير اللائقة وأيضاً الكشف عن الروابط في النص ومدى مصداقيتها بمساعدة خدمة الويب المقدمة من أنتايني Untiny لفك الروابط القصيرة والاستعانة أيضاً بخبراء في مجال السياسة لتقييم مصداقية ما توجه إليه هذه الروابط من مواقع إخبارية. إضافة إلى ذلك حساب الخصائص المتعلقة بكاتب النص عن طريق خدمات الويب المتوفرة كما أسلفنا. وفي النهاية سوف تعرض النصوص على المستخدم بدرجات مختلفة حسب مصداقيتها اعتماداً على الدرجة المحصلة لكل نص باستخدام معادلة المصداقية.
لماذا اخترت تويتر دوناً عن غيره من أوعية نشر الأخبار في الويب؟
- تعتبر تويتر أداة سريعة لنشر الأخبار بين ملايين المستخدمين والذي يصل عددهم قرابة ثلاثة وسبعين مليون زائر للموقع يومياً كما نص على ذلك موقع أليكسيا المتخصص في جمع المعلومات عن مواقع الويب, وبالتحديد فإن عدد المستخدمين يصل إلى قرابة 6753 مستخدما ضمن قارة آسيا فقط اعتماداً على دراسة لجافا وآخرين عام 2007. إضافة إلى أن من أهم المهام التي يقوم بها مستخدمو تويتر بجانب المحادثات اليومية هي نشر الأخبار وتبادلها إما بكتابة مختصر الخبر أو التوجيه إلى رابط اخر.
ففي ظل هذا الكم الهائل من المعلومات المستمرة والمتابعة والتي لا تكاد تخلو من الشائعات أو الاخبار غير الموثوقة, فإن المستخدم سيقف حائراً أمامها, وبالتالي فهو يحتاج إلى أدوات آلية حاسوبية إما لمساعدته على اتخاذ القرار المناسب عن مصداقية هذه المعلومة عن طريق عرضها له بطريقة معينة, أو لإعطائه الحكم الأخير باستخدام قياسات وحسابات آلية دقيقة.
* ما هي أهم نتائج الدراسة؟
- بعد القيام بتجربة على عينة من النصوص والتي تم جمعها من تاريخ 27 ديسمبر 2009 وحتى 6 يناير 2010 وفي أحد المواضيع الساخنة هذه الأيام وهو موضوع "الحوثيون" اتضح من خلال ذلك وكما يظهر في شكل 3, أن نسبة كبيرة من النصوص كانت مصداقيتها قليلة مما يمكننا من القول ان أغلب ما ينشر في تويتر من محتوى إخباري عربي هي أخبار غير موثقة وغير قابلة للتصديق. وفي المقابل قد يكون السبب في ذلك هو أن ماتم اختياره من مواضيع تحت التجربة كالأخبار المتعلقة بمصرع زعيم الحوثيين كان محل جدل ونقاش ولم يؤكد من قبل المصادر الإخبارية في ذلك الوقت.
ولتقييم كفاءة هذا النظام قمت بالاستعانة بخبراء في المجال السياسي إضافة إلى أشخاص مهتمين بالأخبار ومن ثم مقارنة نتائجهم بالنتائج التي توصل إليها النظام ولقد كانت النتيجة أن وصل النظام إلى دقة 0.52 من 1 والتي تعتبر نسبة مقبولة كأول عمل يقدم في هذا المجال. الشكل 4 يوضح مقارنة بين نتائج النظام ومتوسط التقييم من قبل الخبراء.
* ما هي نصائحك في موثوقية المحتوى العربي على الويب؟
- المحتوى العربي على الويب في نمو وتزايد وهذا التزايد يعتبر مشكلة تحتاج إلى مواجهة من قبل الباحثين في علم المعلومات وعلوم الحاسب لتطوير أدوات آلية حاسوبية إما لضبط هذه المحتوى أو لتقيم أي معلومة قبل تصديقها.
وفي المستقبل القريب نسعى لتفعيل هذا النظام على الويب ليكون كمحرك بحث لتويتر. إضافة إلى أنه يمكن تطبيق ذلك على أنواع مختلقة من مواقع الويب مثل موقع الفيس بوك, المنتديات, المدونات.. الخ. ومن جهة أخرى يمكن النظر إلى معلومات أخرى أكثر أهمية على الويب مثل المعلومات الصحية والتي قد يؤثر الخطأ فيها على صحة المستخدمين. والأهم من ذلك فإن المحتوى العربي يحمل في طياته الكثير من الموروث الإسلامي وأهم مرجعين لنا هما كتاب الله وسنة رسوله صلى الله عليه وسلم والتي لا يشك في مصداقيتها ولكن قد تتعرض لوجود أخطاء أو حتى تحريف وبالتالي كان لزاماً علينا تسخير أدوات مماثلة موجهة لهذا النوع من النصوص خدمةً لديننا وللغة القرآن.