مسائل زبان و خط فارسي در ذخيرهسازي و بازيابي اطلاعات |
فصلنامه اطلاع رساني. دوره 17، شماره 1و 2
نوشته: ليلا مرتضائي
عضو هيأت علمي مركز اطلاعات و مدارك علمي ايران
چكيده
بانكهاي اطلاعاتي فارسي، پيش از آن كه فرهنگستان زبان معيارهاي لازم را
برايكاربرد اصطلاحات علمي و رسمالخط فارسي تعيين كند شكل گرفتند.
مجريانبانكهاي اطلاعاتي و نمايهسازان، خواسته يا ناخواسته ـ با مسائل
واژه گزيني و جنبههايي از زبانشناسي درگير شدند. در كار واژه گزيني،
اطلاعرسانان ـ به لحاظ ماهيت حرفهخود ـ واژههاي رايج در جامعه
توليدكنندگان و استفاده كنندگان از اطلاعات را مد نظردارند و خود را مجاز به
واژهسازي و اعمال سليقه نميدانند. واژههاي تازه ساخت نيز تازماني كه در
جامعه مقبوليت لازم را به دست نياورده باشند و در مدارك به كرات ديده
نشوند، در نظامهاي ذخيره و بازيابي اطلاعات يا ظاهر نميشوند و يا ميهمان
چندروزهاند. بخش قابل توجهي از مشكلات نمايهسازان از رواج و كاربرد واژه
ناشي ميشود.متخصصان براي يك مفهوم واحد اصطلاحات متفاوت به كار ميبرند.
حتي متخصصانيكه در يك رشته و در يك جامعه كوچك كار ميكنند خود را ملزم
به هماهنگي در كاربرد واژههاي تخصصي نميبينند. به علاوه براي بسياري از
اصطلاحهاي وارداتي معادلهاي متفاوت در زبان فارسي وجود دارد كه در مواردي
همه، كم و بيش، به يك اندازه كاربرد دارند. اين گونه مطالب به علاوه
مسائل رسمالخط فارسي، آوانويسي اسامي عناصر وتركيبات شيميائي، سرواژهها و
كوتهنوشتهها سبب شده است تا ذخيره اطلاعات به زبانفارسي با كندي صورت
گيرد و جستجو و بازيابي كارايي مطلوب را نداشته باشد.
در اين مقاله سعي خواهد شد نمونه هايي از تجربههاي واژه گزيني در ذخيره
اطلاعات ارائه شود تا با توجه به آنها، شاهد تسريع و تسهيل ذخيره و
بازيابي اطلاعات به زبان فارسي باشيم.
كليدواژهها: بانكهاي اطلاعاتي/ زبان فارسي/ رسمالخط فارسي/ ذخيره و بازيابي
اطلاعات
كتابداران از مدتها پيش دريافتند كه رابطهاي مستقيم و الزامي بين تحليل
موضوعي مطالب و زبانشناسي وجود دارد. اين رابطه با پيدايش علم اطلاعرساني
و كاربرد رايانه در اين رشته، شتاب و اهميت بيشتري يافت. امروزه
اطلاعرساني و اصطلاحشناسي شاخههايي از علوم را تشكيل ميدهند كه
ارتباطي نزديك و مداوم بين آنها برقرار است. دانش اطلاعرساني در حوزهء
فعاليت خود عمدتاً با اطلاعات نوشتاري، كه زبان وسيله اصلي انتقال آن
است، سروكار دارد. متخصصان در مناسبات علمي از زبانهاي ويژه استفاده
ميكنند. هسته ء اصلي هر زبان ويژه، اصطلاحات علمي يا واژگان آن است.
ايناصطلاحات براي ارتباط علمي و انتقال صحيح اطلاعات به كار گرفته ميشود
و چنانچه دچار هرج و مرج و نابساماني شود، طبعاً زبان تفهيم و تفاهم و
جريان درست اطلاعات مختل ميشود. كتابداران و اطلاعرسانان كه رابط بين
توليدكنندگان و مصرف كنندگان اطلاعات هستند، پيش از ساير متخصصان ضرورت
استانداردكردن واژگان علوم را دريافتند و همزمان با توسعه بانكهاي اطلاعاتي
به رعايت آن اصرار ورزيدند.
در كشورهاي غربي بيش از 30 سال است كه رايانهها در ذخيره و بازيابي
اطلاعات و ايجاد پايگاههاي اطلاعات كتابشناختي به كار گرفته شدهاند. در
اين مدت اصطلاحنامههاي تخصصي متعددي كه بعضي از آنها شهرت و اعتبار دارند،
باهمكاري متخصصان موضوعي و زبانشناسان تدوين گرديدند. رايانهها از
جهتسختافزاري و نرمافزاري پيشرفت كردند و ما امروزه شاهد استفاده از
سيستمهاي هوشمند در ذخيره و بازيابي اطلاعات هستيم.
در نظامهاي اطلاعاتي، واژهها به دوگونه "زبان آزاد" و "زبان مهارشده" ظاهر
ميگردند. در استفاده از زبان آزاد، اصطلاحهاي تخصصي بدون آن كه هيچ گونه
كنترلي درمورد آنها اعمال شود، به همان صورت كه در مدارك آمدهاند، در
سيستم وارد و ذخيره ميشوند. مسووليت توجه به كليه اصطلاحات معادل و
شكلهاي متفاوت نوشتاري يكاصطلاح هنگام بازيابي اطلاعات به عهده كاربر
است. حسن اين روش كاهش زمان آمادهسازي و پردازش اطلاعات و تقليل نياز
به نيروي متخصص است. انواع نمايههاي گردان (1)كه براساس چرخش عنوانهاي
مدارك و الفبايي كردن هر يك از واژههاي عنوان طراحي شدهاند، از اين نوع
اند.
در استفاده از زبان مهار شده، نظامهاي ذخيره و بازيابي اطلاعات با
بهرهگيري از متخصصان موضوعي و صرف وقت و نيروي قابل ملاحظهاي ميكوشند تا
اطلاعات را در قالب زباني مهار شده و مقيد ذخيره كنند تا كاربر و رابط
اطلاعات(2) در زماني كوتاهتر وبا نيرويي كمتر، درصد بالايي از اطلاعات
پايگاه را بازيابي نمايند. اصطلاحنامههاي تخصصي(3) ابزار كار اين روشاند.
نظامهاي بازيابي تمام متن(4) و آزاد متن(5) كه با رواجاستفاده از شبكه
جهاني وب شناخته شدند، از زبان آزاد و زبان مهار شده، تؤاماً در سيستمهاي
هوشمند سود ميجويند.
در ايران اين امور سابقه چنداني ندارد. از عمر پايگاههاي اطلاعاتي فارسي
بيش از10 سال نميگذرد. پيش از آن كه فرهنگستان زبان معيارهاي لازم را
براي كاربرد اصطلاحات علمي و رسمالخط فارسي تعيين كند، پايگاههاي اطلاعاتي
شكل گرفتند و مجريان آنها و نمايهسازان، خواسته يا ناخواسته، با مسائل
واژهگزيني و جنبههايي از زبانشناسي درگير شدند. البته در اين مدت به مدد
رسانههاي ارتباطي و بهرهگيري از دانش و تجربه كشورهاي پيشرفته، بسياري از
مراحل را شتابان پيموديم و شايد بسياري از مشكلات را چون ديگر مشكل به
حساب نميآمدند، حس نكرديم. ولي بتدريج كه برحجم اطلاعات فارسي افزوده
شد، دشواريهاي خط و زبان فارسي خودنمايي كرد، از محاسن روشهاي ذخيره و
بازيابي كاست و بر معايب آنها افزود، حل آنها روزبهروز مشكلتر شد و اعمال
بعضي روشهاي ماشيني ممكن نگرديد.
كتابداران و اطلاعرسانان كه به لحاظ ماهيت حرفه خود با واژههاي رايج در
جامعهء توليدكنندگان و مصرفكنندگان اطلاعات سر و كار دارند، خود را مجاز به
اعمال سليقه نميدانند. خط و زبان هم مطلبي نيست كه بتوان با اجراي
الگوهاي غربي بر مسايل آن فايق آمد. تنها با استمداد از نهادهاي مسوول و
ياري آنها ميتوانند به رفع، و يا حداقل مهار اينمشكلات بپردازند. نويسندهء
مقاله به عنوان يكي از كساني كه با مسائل پايگاههاي اطلاعاتي مدارك
فارسي سر و كار داشته و آنها را تجربه كرده است، تلاش خواهد كرد درحد حوصله
و وقت مقاله نمونههايي ارائه دهد تا مشخص گردد دشواريهاي زبان و خط فارسي
چگونه سبب ميشود اولاً ـ در نظامهايي كه براساس زبان آزاد طراحي شدهاند
به دليل تعدد اصطلاحهاي معادل و پراكندگي آنها در محلهاي الفبايي مختلف،
مشخص نبودن حد كلمه در واژههاي مركب و استاندارد نبودن شكل نوشتاري
كلمات، نتيجه جستجو جامعيت مطلوب را نداشته باشد. ثانياً در نظامهايي كه
از زبان مهارشده بهره ميگيرند به دليل همين مسايل، نيرو و زماني بيش از
آنچه تصور ميرود براي واژهگزيني و معادل يابي، هماهنگي و يكسان سازي شكل
نوشتاري اصطلاحات صرف شود.
1 ـ گوناگوني معادلهاي علمي
متخصصان در بيان و انتقال يك مفهوم از اصطلاحات متفاوت استفاده ميكنند.
نظري اجمالي به يكي دو واژهنامهء تخصصي كه براساس كاربرد اصطلاحات در
منابع تهيه شدهاند نشان ميدهد كه بازار واژهسازي و به قول يكي از
زبانشناسان واژهء بازي رواج دارد. به عنوان نمونه واژگان كتابداري و
اطلاعرساني(6) نشان ميدهد متخصصان اين رشتهء 6 معادل برايManual 9
معادل برايOnline 12 معادل براي Layout و 13 معادل براي Cross refrence بكار
بردهاند. از اين گونه نمونهها در تمام رشتهها فراوان است كه مواردي از
آنها در ضميمهء مقاله آورده ميشود. متأسفانه فرهنگستان زبان هم با تصويب
برخي معادلهاي نامأنوس (مانند پروَنجا به جاي فايل؛ پروندان به جاي
زونكن) سهمي در اينبازار آشفته دارد. حال آنكه در كشورهاي پيشرفته، اصل
اصطلاح ـ چه خوشساخت و چه بدساخت ـ پذيرفته ميشود و بدون اعمال سليقه،
به همان صورت، به كار ميرود.
به راستي نمايه ساز بايد كدام يك از اصطلاحات معادل را اصل قرار دهد و از
بقيه بهآن ارجاع بسازد؟ چه معياري در دست دارد؟ رابط اطلاعات، يا به قول
فرهنگستان كارور، اگر بخواهد با استفاده از منطق بول(7) بين دو يا سه اصطلاح
رابطه منطقي برقرار كند چه تدبيري بايد بيانديشد تا حداكثر نسبت بازيافت(8)
را داشته باشد؟
2 ـ ضبط اسامي
در برگردان اسامي افراد، سازمانها، عناصر و تركيبات شيميايي، ابزار و
تجهيزات، محلهاي جغرافيايي و مانند آنها از زبانهاي بيگانه به فارسي،
قاعده خاصي وجود ندارد. هر متخصص، نويسنده و مترجمي بنا به ذوق و سليقه،
ميزان آشنايي با زبان مبدأ و دانش و تخصص خود، آنها را به فارسي برگردانده
و در متون بكار برده است. اين نابساماني حتي در انتشارات سازمانهاي علمي
و فرهنگي كشور نيز ديده ميشود.
نمونه:
پستالزي،ژوهانهنريش/پستالوزي،يوهانهانريش/پستالوزي، ژان هانري
فليشيا/ فليسيا/ فليشا/ فليسا
رابينسون/ روبينسون/ ربينسون/ روبنسن
پيرسون/ پييرسون/ پييرسن
اف. آي. دي/ فيد
دبليو. اچ. او/ هو
پتاسيم/ پتاسيوم/ پوتاسيوم/ پوتاسيم
كادميوم/كادميم/كاديوم
ئيدروژن/ هيدروژن
آلزايمر/ الزايمر
آفريقا/ افريقا
آمريكا/ امريكا
آيا ميتوان تمام شكلهاي حرف نويسي و آوانويسي اسامي را پوشش داد و پايگاه
اطلاعاتي را با ارجاعات متعدد انباشت؟
3 ـ سرهمنويسي، جدانويسي،و بيفاصله نويسي
شيوه خط فارسي چنان است كه بسياري از واژهها را ميتوان به چند صورت
نوشت. اين چندگونگي شكل واژهها، براي رايانه قابل درك نيست. چرا كه
واژهها را تنها به همان صورتي كه ذخيره كرده است ميشناسد و بازيابي
ميكند. لذا در مقابل ساير شكلهاي نوشتاري يك اصطلاح ناآگاه است و در
هنگام جستجوي اطلاعات پاسخ منفي ميدهد. رابطهاي اطلاعات براي پرهيز از
اين مشكل، عموماً از فهرست كليد واژهها استفادهميكنند كه اين امر سبب شده
است تا از امكانات منطق بول در بازيابي اطلاعات به خوبي بهره گرفته نشود.
در مواقعي كه بازيابي از محدوده فيلد كليد واژهها، كه اصطلاحات مهارشدهاند،
فراتر ميرود و فيلدهاي عنوان، پديدآورنده و ناشر را شامل ميشود، اين
ناهماهنگي كاملا به چشم ميخورد. گاه يك واژه مركب براساس شكل نگارش آن
در چند محل الفبايي مختلف، جدا از هم قرار ميگيرد. علامت جمع "ها" كه به
صورت سرهم يا جدا نوشته شود نيز، همين وضع را در فهرستهاي رايانهاي ايجاد
ميكند.
نمونه:
آببند/ آببند
آبشش/ آبشش
آبكاري/ آبكاري
آبگرمكن/ آبگرمكن/ آبگرمكن/ آبگرمكن
بيخوابي/ بيخوابي
بيحسكننده/ بيحسكننده
بيماريزا/ بيماريزا
دستگاه يخساز/ دستگاه يخساز
دستگاه همزن/ دستگاه همزن
ماشين ظرفشويي/ ماشين ظرفشويي
يخزدگي/ يخزدگي
يخبندان/ يخبندان
يونساز/ يونساز
خاكبرداري/خاكبرداري
نامگذاري/نامگذاري
خشكشويي/خشكشويي
غلام حسين/غلامحسين
عليرضا/عليرضا
حسنعلي/حسنعلي
كتابدرسي/كتاب درسي
برنامهدرسي/برنامه درسي
نيرويانساني/نيروي انساني
دانشگاهها/دانشگاهها
كوهها/كوهها
4 ـ انواع جمع
تعدّد علائم جمع (ها؛ ان؛ ات؛ ين؛ ون) و وجود جمع بيقاعده در زبان فارسي
سبب گرديده است در پايگاههايي كه كليد واژهها را به صورت جمع به كار
ميبرند، مشكلي بر مشكلات بالا افزوده شود. نمايهساز در هنگام نمايهسازي در
انتخاب بين مدارس / مدرسهها، اساتيد/ استادان/ استادها، محققان/ محققين و
مانند آنها، مردد است. رابط اطلاعات در موقع بازيابي بايد شكلهاي مختلف
جمع كليدواژهها را در نظر داشته باشد ويا، با استفاده از علائم قراردادي،
واژه را برش(9) بزند. در هر دو صورت، بازهم احتمال پوشش ندادن بعضي از
جمعهاي بيقاعده وجود دارد.
آن دسته از پايگاههاي اطلاعاتي كه كليد واژهها را به صورت مفرد بكار
ميبرند، بااين مشكل مواجه نيستند. البته مسايل جزئي وجود دارد كه به نوعي
حل ميكنند، از آنجمله اصطلاحاتي كه در شكل جمع، مفهومي متمايز از شكل
مفرد دارند (مانند تشكيلات، تجهيزات، امكانات، تسهيلات، ارتباطات) و يا برخي
اصطلاحات كه بهصورت مفرد نامأنوساند (مثل گروه همسالان، فرصتهاي شغلي،
خدمات مشاوره، اوقات فراغت). در اين گونه موارد يا معادلي مناسب را
جايگزين ميكنند (مانند سازمان به جاي تشكيلات و يا رسانه همگاني به جاي
وسايل ارتباط جمعي) يا چنانچه ممكن باشد شكل مفرد واژه را، به اميد آن كه
پذيرفته شود برميگزينند (مانند وقت فراغت به جاي اوقات فراغت) در غير اين
صورت همان شكل جمع را بكار ميبرند.
5 ـ صورتهاي مختلف نوشتاري
همزه، الف مقصوره، تشديد و دوگانگي شكل نوشتاري واژهها و اسامي، سبب
ناهماهنگيهايي در ورود دادهها و پراكندگي اطلاعات پردازش شده ميگردد.
نمونه:
هيأت مديره/ هيئت
مسأله اجتماعي/ مسئله اجتماعي
مسؤوليت والدين/ مسئوليت والدين
عطايي/ عطائي
رؤوف/ رئوف
اسماعيل/ اسمعيل
اسحاق/ اسحق
آيينه/ آينه
طومار/ تومار
موّحدي/ موحدي
داود/ داوود
طاوس/ طاووس
آيتاللهي/ آيت الهي
ليلا/ ليلي
حاصل سخن
زبان علم را "زباني ارتباطي و اطلاعاتي، روشن و سرراست و عاري از
ابهام"(10) تعريف كردهاند، آيا زبان فارسي در حيطه علم چنين ويژگيهايي
دارد؟ آيا در نقش ارتباطي و اطلاعاتي خود موفق بوده است؟ تصور نميكنم پاسخ
چنين پرسشهايي مثبت باشد. طبعاً پايگاههاي اطلاعاتي كه با استفاده از اين
زبان به ذخيره و بازيابي اطلاعات ميپردازند، نميتوانند كارايي مطلوب را
داشته باشند. عواملي كه پيشتر بدان اشاره شد سبب كندي مراحل ذخيره و
بازيابي اطلاعات ميشوند، نسبت بازيافت اطلاعات را كاهش ميدهند و همواره
ميتوان نسبت به جامعيت نتيجه يك جستجو شك كرد.
پايگاههاي اطلاعاتي مدارك فارسي با وجود عمر كوتاهشان با مشكلات
بسياريدست بگريبانند كه اگر هر چه زودتر چاره انديشي نشود، با توجه به
هجوم اطلاعات، ديگر مهار آنها آسان نخواهد بود. در اين زمينه پيشنهاد ميشود:
ـ فرهنگستان براي يكسانسازي واژههاي علمي و جلوگيري از ناهماهنگي
بيشترگامهاي سريعتر و مؤثرتري بردارد. همزمان با ظهور و ورود هر پديده و يا
فرآورده علمي،پيش از آن كه معادلهاي گوناگون رواج يابند، اصطلاح مناسب
را انتخاب و اعلام نمايد.
ـ دستورالعملهايي در مورد شيوه نگارش اصطلاحات و واژههاي فارسي كه
موردتأييد اهل فن باشد، تدوين و براي اجرا به كليه واحدهاي چاپ و نشر
ابلاغ شود.
ـ براي تدوين اصطلاحنامههاي تخصصي در زبان فارسي، كه حاوي اصطلاحات معيار
در هر رشته و شيوه نوشتاري مورد قبول باشد، اقداماتي مؤثر، هماهنگ و
حسابشده از طرف سازمانهاي ذيربط صورت گيرد.
ـ متخصصان رايانه در جهت استفاده از امكانات اين پديده قرن و هوشمندكردن
سيستمها براي پردازش خط فارسي، چارهجويي و همانديشي بيشتري داشته
باشند.
پينوشتها:
1. Permuted Index
2. Information intermediary
3. Thesaurus
4. Full-Text
5. Free-Text
6. هاشمي، ابوالفضل (1376). واژگان كتابداري و اطلاع رساني. تهران،
دبيرخانه هيأتامناي كتابخانههاي كشور.
7. Boolean logic
8. Recall ratio
9. Truncation
10. حق شناس، علي محمد (1372). در جست و جوي زبان علم. مجموعه
مقالاتسمينار زبان فارسي در زبان علم. تهران: مركز نشر دانشگاهي. ص 13-6.
منابع:
آشوري، داريوش (1375). بازانديشي زبان فارسي; ده مقاله، ويرايش دوم.
تهران: نشرمركز.
اكبري نژاد، سعيد (1376). فاصله خالي ميان واژهها در ذخيره و بازيابي
رايانهاياطلاعات. فصلنامه كتاب. (بهار و تابستان). ص 56-49.
امامي، كريم (1371). لزوم بازنگري در شيوه نگارش خط فارسي. آدينه.
74/73(شهريور) ص 19-18.
باطني، رضا (1371). نگاهي تازه به شيوه خط فارسي. آدينه. 75 (آبان). ص
45-44.
بهزادي، ماندانا (1375). شيوه ضبط اعلام انگليسي در فارسي. تهران: مركز نشر
دانشگاهي ;كتابخانه ملي جمهوري اسلامي ايران.
حري، عباس (1372). كامپيوتر و رسمالخط فارسي، پيام كتابخانه. سال سوم.
شماره 1.(بهار) ص 11-6.
حق شناس، علي محمد (1372). در جست و جوي زبان علم. مجموعه مقالات
سمينارزبان فارسي در زبان علم. تهران: مركز نشر دانشگاهي. ص 13-6.
صنعتي، محمد (1371). دشواريهاي زبان فارسي با كامپيوتر. آدينه. 72 (مرداد).
ص 57-56.
كابلي، ايرج (1371). فراخوان براي فارسي نويسي و پيشنهاد به تاجيكان.
آدينه. 72
(مرداد) ص 55-50.
مآخذنمونهها
اميني، سيد محمد (1370). واژگان فيزيك. تهران: مركز نشر دانشگاهي.
باقري، محمد (1372). واژگان رياضي. تهران: نشر فرهنگان.
بريجانيان، ماري (1371). فرهنگ اصطلاحات فلسفه و علوم اجتماعي، ويرايش
بهاءالدين خرمشاهي. تهران: مؤسسه مطالعات و تحقيقات فرهنگي.
پورجوادي، علي. واژگان شيمي و مهندسي شيمي، تهران: مركز نشر دانشگاهي.
هاشمي، سيد محمد (1376). واژگان كتابداري و اطلاعرساني. تهران: دبيرخانه
هيأتامناي كتابخانههاي عمومي كشور.
همايون، همادخت (1371). واژه نامه زبانشناسي و علوم وابسته. تهران: مؤسسه
مطالعاتو تحقيقات فرهنگي.