GSO ISO 24614-1:2015

مواصفة قياسية خليجية   فعالة

إدارة الموارد اللغوية -- تجزئة النصوص المكتوبة إلى كلمات -- الجزء1: المفاهيم الأساسية والمبادئ العامة

تبني بالمصادقة

يعتمد آخر إصدار للمواصفة القياسية الدولية/الوطنية ويبقى الإصدار الدولي ما قبل الأخير (إذا كان معتمداً) سارياً لمدة سنتين من تاريخ آخر تحديث دولي له

المجال
يقدم هذا الجزء من المواصفة ISO 24614 المفاهيم الأساسية والمبادئ العامة لتجزئة الكلمات، كما يقدم إرشادات مستقلة عن اللغة لتمكين تجزئة النصوص المكتوبة إلى كلمات (WSU) بطريقة موثوق فيها وقابلة للنسخ. ملاحظة1: في الأبحاث والصناعات المرتبطة باللغة، تعد الكلمة مفهومًا أساسيًا وضروريًا؛ ومن ثم، يجب أن يكون هناك تعريفًا شاملاً ليشمل الكلمة، وذلك لغرض تجزئة النص إلى كلمات. فلا يمكن للمرء استخدام القواعد المبنية على المسافات الفاصلة وعلامات الترقيم فقط بسهولة لتحديد الكلمات؛ فهذه القواعد لا تراعي بعض المواقف، مثل الأسماء المركبة والاختصارات والمصطلحات التي تحتوي على رموز أو أعداد. فتجزئة الكلمات تعد أمرًا أكثر صعوبة بالنسبة للغات التي لا تستخدم المسافات الفاصلة، مثل اللغتين الصينية واليابانية، وكذلك الأمر بالنسبة للغات الاشتقاقية، حيث تُدرك بعض فئات الكلمات الوظيفية على أنها مقاطع، مثل اللغة الكورية. تشمل التطبيقات والمجالات المتعددة التي بحاجة إلى تجزئة النصوص إلى كلمات – والتي يمكن أن يطبق عليها هذا الجزء من المواصفة ISO 24514 – ما يلي: الترجمة: عدد الكلمات هو الطريقة الأساسية لحساب تكلفة الترجمة، لذا تأتي تجزئة الكلمات باعتبارها الوظيفة المعيارية في أنظمة ذاكرة الترجمة وأدوات الترجمة بمساعدة الحاسوب (CAT)؛ حيث يتم تجزئة الكلمات من خلال أدوات استخلاص المصطلحات التي أحيانًا ما يتم تقديمها في أنظمة إدارة المصطلحات وأدوات الترجمة بمساعدة الحاسوب. إدارة المحتوى: تُتيح أغلبية أنظمة إدارة وقواعد بيانات المحتوى البحث من خلال الكلمات الفردية، حيث يتم تجزئة المحتوى الذي يتم بحثه لكي يُتيح المقارنة بكلمات البحث؛ علاوة على ذلك تطلب وظائف البحث معرفة حدود الكلمات. تقنيات النطق تعمل أنظمة تحويل النصوص إلى كلام منطوق (text-to-speech) على إصدار النطق بناءً على الكلمات؛ ومن ثم، تتطلب هذه الأنظمة تجزئة الكلمات للبحث عنها في المعجم وتعيين المقاطع المشددة وتعيين النموذج العروضي، إلخ. اللغويات الحسابية يجب أن تقوم أنظمة معالجة اللغة الطبيعية (NLP) بتجزئة النص إلى كلمات تنفيذًا لوظائفها؛ حيث تشمل أنظمة NLP ما يلي: - المعالجات النحوية الشكل. - المعرب النحوي. - برنامج الكشف عن الأخطاء الإملائية. - أنظمة تصنيف النص. - مفسر لسانيات المدونات اللغوية. صناعة المعاجم غالبًا يتم تقييم الموارد المعجمية بناءً على الحجم، وعادة يكون بالإشارة إلى عدد الكلمات. ملاحظة 2: يعد حجم الموارد اللغوية معيارًا أساسيًا على إدارة هذه الموارد، حيث يتم تعيين حجم الموارد اللغوية من خلال عدد الكلمات؛ إلا أنه بسبب استخدام تطبيقات NLP لطرق مختلفة التجزئة، فكل طريقة تعمل على حساب عدد الكلمات بشكلٍ مختلف، ومن ثم تصل إلى عدد مختلف من الكلمات لنفس النص. لذا، فوجود مقياس معياري موثوق به يسمح بالتوصل إلى نتائج قابلة للمقارنة، وهذا لا يعني ألا يستخدم كل تطبيق الطريقة الخاصة به لتجزئة الكلمات؛ على سبيل المثال، قد تقوم التطبيقات الخاص بالنطق الاصطناعي على تجزئة النص إلى وحدت أصغر أو وحدات أكبر حجمًا مقارنة بتطبيق آخر.
تبني بالمصادقة
ISO 24614-1:2010
21 ديسمبر 2015
الكتابة والترجمة
*مجموعة المحارف المشفرة المستخدمة في تبادل البيانات أنظر 35.040

الملفات

 

الأكثر مبيعاً في قطاع المعلومات

GSO ISO 16175-2:2013
ISO 16175-2:2011 
مواصفة قياسية خليجية
المعلومات والتوثيق- المبادئ والمتطلبات الوظيفية للسجلات في بيئات المكاتب الإلكترونية- الجزء 2: المبادئ التوجيهية والمتطلبات الوظيفية للأنظمة الرقمية لإدارة السجلات
OS GSO ISO 18513:2016
ISO 18513:2003 
مواصفة قياسية عمانية
الخدمات السياحية -- الفنادق وغيرها من أنواع الإقامة السياحية -- المصطلحات
GSO ISO 18513:2016
ISO 18513:2003 
مواصفة قياسية خليجية
الخدمات السياحية -- الفنادق وغيرها من أنواع الإقامة السياحية -- المصطلحات
OS GSO ISO 16175-2:2013
ISO 16175-2:2011 
مواصفة قياسية عمانية
المعلومات والتوثيق- المبادئ والمتطلبات الوظيفية للسجلات في بيئات المكاتب الإلكترونية- الجزء 2: المبادئ التوجيهية والمتطلبات الوظيفية للأنظمة الرقمية لإدارة السجلات

اعتمدت مؤخراً في قطاع المعلومات

GSO IEC 60839-11-31:2021
IEC 60839-11-31:2016 
مواصفة قياسية خليجية
نظم الإنذار والأمن الإلكتروني - الجزء 11-31: أنظمة التحكم الالكتروني في الوصول - بروتوكول قابلية التشغيل البيني الأساسي القائم على خدمات الويب
GSO ISO 20104:2021
ISO 20104:2015 
مواصفة قياسية خليجية
نظم نقل البيانات والمعلومات الفضائية -- تحديد واجهة التوصيل البيني بين المنتج-المحفوظات
GSO ISO 20205:2021
ISO 20205:2015 
مواصفة قياسية خليجية
نظم نقل البيانات والمعلومات الفضائية -- نظم الواجهة على متن المركبة الفضائية -- الاتصالات اللاسلكية ذات معدل البيانات المنخفض للتحكم في المركبة الفضائية ورصدها
GSO ISO 20207:2021
ISO 20207:2015 
مواصفة قياسية خليجية
نظم نقل البيانات والمعلومات الفضائية -- بروتوكولات الربط الفضائي للجنة الاستشارية لنظم البيانات الفضائية خلال معيار بث الفيديو الرقمي فضائيًّا الجيل الثاني (ETSI DVB-S2)