مشکلات و معایب " نمایه سازی ماشینی تخصیصی "

با اشاره به مزایای نمایه سازی ماشینی (مخصوصا از نوع تخصیصی و حضور اصطلاح نامه ها در این نوع نمایه سازی)1

سید مصطفی واردی

چکیده

در دورانی که به عصر انفجار اطلاعات ملقب گشته، یکی از دغدغه های مهم انسان سازماندهی این حجم عظیم از اطلاعات است که تولید و افزایش آن در لحظه ها و ثانیه ها اتفاق می افتد. رایانه همچون بخش های دیگر در این زمینه نیز به یاری انسان شتافته که یکی از ثمرات آن نمایه سازی ماشینی است. نمایه سازی ماشینی تخصیصی که یکی از انواع نمایه سازی توسط رایانه به شمار می رود، سبب نگاه نو و تازه ای به اصطلاح نامه ها شده است. با تمامی مزیت ها، وجود معایب قابل تاملی که در این نوع از نمایه سازی ماشینی وجود دارد، سبب اظهار شک و تردید کارشناسان و متخصصان در استفاده از آن شده است. در این مقاله مشکلات و معایب نمایه سازی ماشینی بصورت عام و نوع تخصیصی بصورت خاص مورد بحث و بررسی قرار می گیرد و در انتها سعی بر آن دارد تا قضاوت منصفانه ای در برابر آن داشته باشد.

مقدمه

با اختراع رایانه و بکارگیری آن در صنایع مختلف، زندگی انسان دچار تغییر و تحول عظیمی شد و محدودیت های زمان و مکان تا حدودی برطرف گردید. اما این رویداد چشمگیر در کنار مزیت های فراوان خود مشکلاتی را نیز به همراه داشته و دارد. یکی از این مشکلات عدم مساوات در پیشرفت موارد مرتبط با هم است. به عنوان مثال با انقلاب گوتنبرگی در قرن 15 و اضافه شدن رایانه در قرن حاضر به صنعت چاپ، انسان به یکباره با حجم عظیمی از اطلاعات و مدارک چاپی و غیرچاپی مواجه شد که سازماندهی آن به روش های سنتی و دستی پاسخگوی آن نبود. به خاطر همین همانگونه که اشاره شد برای برقراری مساوات با سرعت نشر و تولید اطلاعات، رایانه در سازماندهی اطلاعات به یاری انسان شتافت. یکی از این موارد «نمایه سازی ماشینی»2 است که به آن «نمایه سازی خودکار»3 و «نمایه سازی رایانه ای»4 نیز گفته می شود.

نمایه‌‌سازی ماشینی به مجموعه فرایندی گفته می‌شود که در آن رایانه بدون دخالت انسان مدخل‌های نمایه‌ای را به متن ماشین خوان اختصاص می دهد. البته عده ای از متخصصین، نمایه سازی ماشینی را به مفهوم جانشین رایانه به جای انسان ندانسته و آن را نوعی نمایه سازی به کمک رایانه می دانند و عده ای نیز این دو مفهوم را مستقل از هم قرار می دهند.
تاریخچه نمایه سازی ماشینی مربوط می شود به دهه 50 میلادی و در سال هایی که برای اولین بار مسائلی مانند «بازیابی خودکار اطلاعات» مورد توجه قرار گرفت. تحقیقات و مطالعاتی در این زمینه آغاز به کار کرد و به تدریج در سال 1968 شکل بین المللی به خود گرفت. لوستیگ5 و فانگ میر6 را می توان از آغازگران این راه و پروژه های AIR/X7 ، EURATOM8 و CETIS9 را برخی از اولین اقدامات این دوره نام برد. در کنار این فعالیت ها مطالعات و تحقیقات همسوی دیگری نیز آغاز به کار کردند که از آن جمله موضوع ریخت شناسی متون در سیستم های بازیابی اطلاعات بود. وظیفه اصلی ریخت شناسی، تجزیه و تحلیل بر مبنای ریشه لغات است که به عدم وابستگی به شکل دستوری یک لغت منجر می شود. طرح های PASSAT10 ، AIR/PHYS11 و STAIRS12
نمونه هایی از اقدامات این دوره بودند.
به هر روی با پیشرفت هایی که در این زمینه ها حاصل شده، تلاش انسان برای رسیدن به سطوح بالاتر روز افزون شده و تحقیقات و مطالعات امروزی به جز موارد ذکر شده شامل موارد پیشرفته تری مانند تحلیل هوشمندانه متون نیز می شود.

مزایای نمایه سازی ماشینی

انجام امور توسط رایانه در تمامی زمینه ها مزیت های فراوانی داشته که افزایش سرعت و دقت و کاهش هزینه از مهمترین آنهاست. در نمایه سازی رایانه ای نیز این مزیت ها وجود دارند که برخی از آنها به این شرح اند؛
۔ نمایه سازی مدارک با سرعتی بسیار بیشتر از نمایه سازی دستی
۔ کاهش هزینه های مربوط به عوامل نمایه ساز انسانی
۔ دقت بیشتر در برابر اشتباهات احتمالی نمایه سازی دستی
۔ استفاده همزمان از مدارک
۔ دستیابی به مدارک از راه دور
۔ حذف مراحل پس از نمایه سازی دستی برای ورود به رایانه

انواع نمایه سازی ماشینی

نمایه سازی ماشینی چه از نوع نمایه سازی به کمک رایانه و چه بدون دخالت انسان به دو روش انجام می شود که عبارتند از «نمایه سازی ماشینی استخراجی»13 و «نمایه سازی ماشینی تخصیصی»14 و گاهی نیز به صورت ترکیبی از این دو روش.
مهمترین عامل در نمایه سازی ماشینی استخراجی، بسامد حضور کلیدواژه ها در متن است. افرادی چون باکسن دال15 و لوان16 در دهه 1950 پیشگامان نمایه سازی ماشینی بر اساس بسامد تکرار واژه بودند. در این روش متن ماشین خوان مرور شده و تمامی کلیدواژه هایی که در لیست بازدارنده17 (حروف اضافه، ربط، تعریف و مواردی از این قبیل) قرار ندارند استخراج می شوند. البته به جز بسامد دو عامل مهم دیگر نیز نقش دارند که عبارتند از محل واژه و بافت. در واقع می توان رایانه را طوری برنامه ریزی کرد که استخراج کلیدواژه ها را از محل های خاصی انجام دهد و یا کل متن را مرور کند و یا اینکه ترکیبی از این دو روش باشد. در حالت ترکیبی کل متن مرور شده ولی در استخراج کلمات و عبارات مکان حضور آنها نیز مورد توجه قرار می گیرد.
با توجه به موضوع اصلی نوشتار از مبحث نمایه سازی ماشینی استخراجی گذر کرده و بیش از این به شرح جزئیات نمی پردازیم.

چگونگی نمایه سازی ماشینی تخصیصی

قبل از بررسی مزایا و معایب، بهتر است با روش کار این نوع نمایه سازی ماشینی آشنا شویم. در این روش متن الکترونیکی توسط رایانه مرور شده و تمامی کلمات و عباراتی که در اصطلاح نامه قرار داشته باشند استخراج می شوند. در واقع تفاوت اصلی، در دو نوع استخراجی و تخصیصی در همین قسمت و در استفاده از بانک واژگان کنترل شده است.
در مرحله بعد، از میان واژه هایی که استخراج شده اند و معمولا تعدادشان هم کم نیست باید واژه های مناسب را برگزید. یکی از بهترین روش هایی که رایانه به کمک آن می تواند مناسب ترین واژه ها را برگزیند شناسایی محل حضور واژه هاست. برخی از مکان هایی که احتمال حضور کلیدواژه های اصلی در آنها بیشتر از سایر قسمت هاست عبارتند از: عنوان، فهرست، چکیده، مقدمه، سرفصل های داخل متن، ابتدا و انتهای پاراگراف ها، شرح تصاویر، جملاتی که در آنها کلماتی مانند «در نتیجه، نتیجه گیری، بنابراین، خلاصه کلام، به نظر می رسد، باید توجه داشت و ...» به کار رفته است و ...
به عنوان مثال، باکسن دال پیشنهاد داده بود که فقط اولین و آخرین جملات هر پاراگراف پردازش شوند، زیرا یکی از دانشجویان او نشان داده بود که اولین جمله یک پاراگراف در 85 درصد موارد و جمله آخر یک پاراگراف در 7 درصد باقیمانده، «جمله موضوعی»18 هستند. جمله موضوعی جمله ای است که بیشترین اطلاعات را درباره محتوا فراهم می آورد.19
بعد از مرتب نمودن، حدی برای انتخاب کلمات و عبارات بالای فهرست مشخص می شود که به آن «نقطه برش»20 می گویند. تعیین نقطه برش بر اساس معیارهای مختلفی می تواند باشد که برخی از آنها عبارتند از: n اصطلاح بالای فهرست؛ n اصطلاح برای هر طول مشخصی از متن (پاراگراف، صفحه و ...)؛ n اصطلاحی که بیش از مقدار مشخصی تکرار شده اند؛ اصطلاحاتی که بسامدشان در متن بطور نسبی بیش از بسامدشان در کل پایگاه باشد و ...
به عنوان مثال در روش لوان بعد از این که پربسامدترین کلمات مدرک شناسایی شدند، بسامد آنها با بسامدشان در دیگر مدارک پایگاه مقایسه می شود. در صورتی که کلمه مورد نظر جزء پربسامدترین کلمات پایگاه باشد انتخاب نخواهد شد. در واقع لوان بر این عقیده بود که کلمات و عباراتی که در اکثر پایگاه ها حضور دارند نمی توانند عامل مناسبی در بازیابی و تفکیک مدارک باشند.
به این ترتیب پس از طی مراحل فوق کلیدواژه هایی که رایانه آنها را تشخیص داده به متن مورد نظر تخصیص داده می شوند. اما در این فرآیند مشکلاتی وجود دارد که موجب پایین آمدن سطح کیفی کار و حتی در برخی موارد سبب توقف کار می شود. در ادامه به بررسی برخی از این مشکلات می پردازیم.

مشکلات نمایه سازی ماشینی

در آغازین دوران شکل گیری نمایه سازی ماشینی، یکی از مشکلات اصلی، کمبود متن ماشین خوان بود. در واقع تهیه متون الکترونیکی از مدارک چاپی که  قابل استفاده برای رایانه باشد، بخش عمده ای از هزینه ها را تشکیل می داد که این خود مانعی برای انجام چنین کاری می شد.  این مشکل در عصر حاضر با پیشرفت هایی که در صنعت چاپ و نشر بوجود آمده برطرف شده است. در واقع اکثر منابع چاپی کنونی بوسیله رایانه تهیه و تولید و آماده چاپ می شوند. شاید در نگاه اول اینطور به نظر برسد که از دو رکن اصلی نمایه سازی ماشینی یعنی متن ماشین خوان و نرم افزار رایانه ای، مسئله متون الکترونیکی حل شده و باید روی اصول و دستورالعمل های نرم افزار رایانه ای تمرکز کرد. اما واقعیت مسئله چیز دیگری است و تهیه و جمع آوری متون و منابع الکترونیکی به تنهایی مشکلی را حل نمی کند.
از مشکلات اصلی متون الکترونیکی یکدست نبودن آنها در مرحله فرمت گذاری است. پایگاهی را در نظر بگیرید که برای موضوع خاصی اقدام به جمع آوری اطلاعات از منابع مختلف کرده است. واضح است که هر منبع اطلاعاتی از شیوه فرمت گذاری خاص خودش استفاده کرده و به این ترتیب نرم افزار در تشخیص قسمت های مختلف دچار مشکل می شود. همانطور که قبلا اشاره شد نرم افزار با شناسایی محل حضور کلمات و عبارات برخورد متفاوتی با آنها خواهد داشت. به عنوان مثال کلمه یا عبارتی که در عنوان یک مقاله آمده مسلما با عبارتی که در یکی از پاراگراف ها آمده از لحاظ اهمیت تفاوت خواهد داشت.
یکدست بودن منابع، به وجود استانداردهای معین و همچنین به کارگیری این استانداردها از سوی مراکز و موسسات تولید کننده بستگی دارد. به هر مقدار که منابع از این استانداردها بیشتر بهره برده باشند کیفیت کار بیشتر شده و نیازی به صرف هزینه و وقت اضافی برای یکدست کردن آنها نیست. به عنوان مثال در "Html"21 که آن را زبان وب نیز می نامند برای نشان دادن عنوان اصلی از تگ "H1" و برای عناوین فرعی از تگ های "H2" تا "H6" استفاده می شود. این در حالی است که برخی برعکس عمل نموده و شاید بخاطر بزرگتر بودن از لحاظ عددی از تگ "H6" برای عنوان اصلی و از تگ های "H5" تا "H1" برای عناوین فرعی استفاده می کنند. در برخی موارد غیراستاندارد دیگر، از این تگ ها برای نشان دادن مطالب دیگری مانند نام مولف اثر استفاده می شود. همچنین عده ای نیز برای نشان دادن عناوین اصلی و فرعی از تگ های "Div" استفاده می کنند. موارد ذکر شده به همراه بسیاری از موارد مشابه دیگر از عوامل ایجاد کننده ناهماهنگی در فرمت گذاری به حساب می آیند که در نهایت به گمراهی رایانه منجر خواهند شد.
بنابراین ناهماهنگی متون و منابع الکترونیکی در یک پایگاه از مشکلات مهم نمایه سازی ماشینی محسوب می شود. اینگونه پایگاه ها معمولا از منابع دیگری اقدام به تهیه متون کرده اند و تعدادشان نیز در کشور ما کم نیست.
مشکل دیگری که در متون الکترونیکی چه از نوع فرمت گذاری هماهنگ و چه ناهماهنگ وجود دارد عدم رعایت قواعد ویرایشی نگارشی توسط نویسندگان است. بسیاری از نویسندگان از ارائه آثار خود به ویراستاران خودداری کرده و خود اقدام به این کار می کنند. شاید این مسئله خیلی بااهمیت نباشد ولی به یاد داشته باشید که از نظر رایانه، ابتدا، میانه و انتهای یک پاراگراف تفاوت زیادی دارند. همانطور که قبلا هم اشاره شد باکسن دال پیشنهاد داده بود که فقط اولین و آخرین جمله پاراگراف ها پردازش شوند، زیرا او معتقد بود اولین جمله پاراگراف در 85 درصد موارد و آخرین جمله در 7 درصد موارد شامل جمله موضوعی22 هستند. واضح است در صورتی که پدیدآورنده اثر از لحاظ پاراگراف بندی و دیگر موارد ویرایشی و نگارشی دقت لازم را به عمل نیاورد ممکن است خیلی از موارد برای رایانه پنهان بماند و یا ارزش متفاوتی برای آنها در نظر بگیرد.
در این قسمت و در مورد دو مشکلی که برای متون الکترونیکی ذکر شد باید این مطلب را نیز یادآوری کرد که موارد ذکر شده زمانی مشکل ساز خواهد بود که بخواهیم از شیوه وزن دهی استفاده کرده و مکان حضور کلمات و عبارات در متن حائز اهمیت باشند.

معایب نمایه سازی ماشینی تخصیصی

در زمینه نمایه سازی ماشینی سوال مهمی که همیشه مطرح بوده این است که آیا واقعا رایانه قادر است در این زمینه جانشین انسان شود و به تنهایی تمام امور را انجام دهد و یا اینکه رایانه فقط جنبه کمک به نمایه ساز در تسریع امور داشته و از انجام این عمل به تنهایی عاجز است. در این قسمت به معایب و نقاط ضعف نمایه سازی ماشینی چه کلی و چه از نوع تخصیصی خواهیم پرداخت تا پاسخگویی به این مسئله مهم را ساده تر کنیم.

تخصیص کلیدواژه های انتزاعی

ایراد مهمی که در کار نمایه سازی ماشینی و در نحوه کار رایانه وجود دارد وابستگی کامل آن به کلیدواژه هایی است که در متن حضور دارند. به عبارت دیگر رایانه قادر به پردازش انتزاعی متون نیست و فراتر از کلمات و عبارات داخل متن کاری انجام نمی دهد. البته متخصصین سعی بر این دارند تا با شیوه های جدیدی که بر مبنای احتمالات عمل می کنند این مشکل را تا حدودی برطرف کنند ولی در حال حاضر این مسئله اصلی ترین نقیصه نمایه سازی ماشینی است.
متن زیر نمونه ای از ضعف رایانه در تخصیص کلیدواژه های انتزاعی است.
اسهال یکی از بیماری‌های شایعی است که مسافران با آن دست به گریبانند. باکتری‌های اشرشیاکلی (E.coli)، کمپیلوباکتر ژژنی (C.jejuni) و شیگلا (shigella) از عوامل عمده این اسهال عفونی هستند. کسانی که به طور مستقیم با غذا تماس دارند (مثل آشپزها، کارگرهای رستوران‌ها و ...) باید گواهی سلامت از وزارت بهداشت داشته باشند و در رعایت بهداشت کاملاً دقت کنند. در صورت مصرف گوشت خام یا گوشتی که خوب پخته نشده است، احتمال خطر بالایی برای ابتلا به این بیماری وجود دارد. به خصوص همبرگرهایی که بدون رعایت بهداشت تهیه می‌گردند و به خوبی پخته نمی‌شوند می‌توانند این بیماری را انتقال دهند. برگ‌های خام سبزیجات، میوه با پوست، لبنیات غیر پاستوریزه و غذاهای دریایی نیز جزء عواملی هستند که باعث اسهال مسافران می‌شوند. در آشپزخانه در صورت قرار دادن گوشت خام بر روی میز، حتماً میز را بشویید چون ممکن است با قرار دادن مواد غذایی دیگر این بیماری منتقل شود. اشتباه شایعی که مسافران می‌کنند استفاده از یخ است. با قرار دادن آب در جایخی باز هم قابلیت انتقال میکروب وجود دارد. بهتر است از یخ‌های فروشنده‌های سر راه استفاده نکنید و خودتان با آب سالم اقدام به درست کردن یخ نمایید.
کالباس، سوسیس، گوشت نیمه پخته‌شده و کاهو نیز این باکتری را منتقل می‌کنند. پس از ورود باکتری از طریق دهان، این باکتری وارد روده‌ها می‌شود و به سلول‌های مخاط روده‌ می‌چسبد و شروع به تکثیر می‌کند و هنگامی که تعداد آن‌ها زیاد شود، همگی شروع به آزاد کردن سم می‌کنند. سم ناشی از باکتری‌ها، مخاط روده را تخریب و دردهای شدید شکمی و اسهال را ایجاد می‌کند.
یکی از کلیدواژه های مناسبی که می توان به این متن اختصاص داد «مسمومیت غذایی» است که هیچ عبارت لغوی مشابه آن در متن نیامده است. اما یک نمایه ساز با مطالعه متن می تواند این کلیدواژه را به آن اختصاص دهد. در واقع ضعف رایانه در استخراج کلیدواژه های انتزاعی سبب شده تا برخی کارشناسان، نمایه سازی رایانه ای را زیر سوال برده و به جای آن از عبارت نمایه سازی به کمک رایانه استفاده کنند.

شباهت املایی کلمات

کلماتی که از نظر املایی با هم شباهت دارند مشکل دیگری است که نمایه سازی ماشینی با آن دست به گریبان است. مثال معروف و همیشگی شیر، نمونه ای از این مشکل است که می تواند به سه معنی شیر جنگل، شیر خوراکی و شیر آب در متن آمده باشد. اما رایانه برخورد یکسانی با آنها داشته و قادر به تفکیک آنها نیست.
کلمه «ملک» نیز نمونه دیگری در این مورد است که می تواند معانی متفاوتی در متن داشته باشد. بر اساس متن و روش خواندن، این کلمه می تواند در معانی زمین، فرشته، پادشاه و قلمرو ظاهر شود.
در برخی موارد با توجه به قواعد نگارشی می توان این مشکل را حل کرد. به عنوان مثال در دو جمله «او کتاب را برده است» و «او یک برده است» با توجه به اینکه در جمله اول کلمه «برده» بعد از نشان مفعولی «را» و در جمله دوم بعد از صفت عددی «یک» آمده می توان تشخیص داد که به احتمال زیاد در جمله اول در نقش فعل و در جمله دوم اسم و در نقش مسند است. اما در مواردی که نقش یکسانی داشته باشند (مانند مثال شیر) کار بسیار دشوار خواهد شد. این مشکل زمانی شدت پیدا خواهد کرد که رایانه برای استخراج کلمات از اصطلاح نامه استفاده کند. در این صورت بخاطر ارجاعات موجود در اصطلاح نامه سردرگمی رایانه بیشتر شده و اشتباهات نیز افزایش پیدا خواهد کرد.

معیار بالاترین بسامد

بالاترین بسامد حضور کلمه در متن یکی از مهمترین معیارهای انتخاب واژه در نمایه سازی ماشینی به حساب می آید. به وسیله پربسامدترین کلمات متن می توان موضوع اصلی بحث را مشخص کرد. اما تشخیص موضوع بحث و تعیین کلیدواژه ها با معیار بسامد در همه موارد موثر نیست که در اینجا به دو ایراد مهم آن اشاره می شود.
الف) ناکارآمدی این روش در پایگاه های تخصصی نمود بیشتری دارد چون در این پایگاه ها معمولا کلمات و عبارات خاصی در اکثر مدارک پایگاه تکرار می شوند و استخراج و تخصیص آنها به مدرک مورد نظر نمی تواند معیار خوبی برای تفکیک با دیگر مدارک باشد.
یکی از راهکارهایی که برای این مسئله در نظر گرفته شد و به روش لوان نیز معروف است، این بود که پربسامدترین کلمات مدرک به نسبت خاصی با بسامدشان در کل پایگاه مقایسه شوند. اگر بسامدشان در مدرک بصورت نسبی بیشتر از بسامدشان در کل پایگاه باشد در این صورت به عنوان کلیدواژه و در غیر اینصورت نادیده گرفته می شوند.
شاید در نگاه اول اینطور به نظر برسد که این روش مشکل را حل کرده اما خود این روش ایراداتی دارد که سبب ایجاد مشکلات دیگری خواهد شد. همانطور که اشاره شد در این روش بسامد حضور کلمه در متن با بسامد در کل پایگاه بصورت نسبی مقایسه می شود. مشکل، تعیین حد مقدار نسبیتی است که باید بصورت یکسان برای تمامی مدارک مورد مقایسه قرار گیرد. تعیین حد یکسان برای تمامی مدارک سبب می شود تا برخی از کلیدواژه ها با وجود اینکه موضوع اصلی مدرکشان هستند و می توان آنها را به عنوان کلیدواژه های اصلی در نظر گرفت ولی بخاطر این که بسامدشان در متن کمتر از بسامد پایگاه است نادیده گرفته شده و محسوب نشوند.
ب) با نگاهی کلی به پربسامدترین کلمات متن می توان به موضوع اصلی آن پی برد. در واقع قرار دادن معیار بسامد برای تخصیص کلمات و عبارات سبب کلی نگری و عام نگری خواهد شد و فقط تعدادی کلیداوژه که مرتبط با موضوع اصلی هستند تخصیص داده می شوند. با این حساب موضوعات دیگری که در متن قرار دارند ولی به مقدار کمی به آنها پرداخته شده به علت کمی بسامد نادیده گرفته می شوند و به این ترتیب برخی از کلیدواژه های مهم مدرک را از دست خواهیم داد.
مواردی که در این قسمت بیان شد همگی نشان دهنده ناکارآمدی و نامناسب بودن معیار بسامد به عنوان تنها عامل تخصیص کلیدواژه های اصلی به شمار می روند. شاید اگر معیار بسامد با معیارهایی دیگری سنجیده شود نتیجه مطلوب تری حاصل شود و از مشکلات آن کاسته شود.

به روز رسانی اصطلاح نامه ها

تفاوت اصلی نمایه سازی ماشینی تخصیصی با نوع استخراجی در استفاده از اصطلاح نامه و بانک واژگان کنترل شده است. استفاده از اصطلاح نامه ها مزیت های فراوانی را به دنبال دارد اما گاهی اوقات موانعی موجب می شوند تا استفاده از اصطلاح نامه ها با مشکل مواجه شود. یکی از این موارد در ارتباط با پایگاه های علومی است که دائما شاهد موضوعات و مسائل جدیدی هستند و یا به عبارت دیگر از به روز رسانی بالایی برخوردارند. علوم مربوط به رایانه مثال خوبی است برای این نوع پایگاه ها که هر از چند گاهی موضوع جدیدی در آن مطرح شده و یا وسیله جدیدی ساخته می شود. از آنجایی که معیار انتخاب واژه در نمایه سازی ماشینی تخصیصی شرط حضور آن در اصطلاح نامه است، با این شرط کلمه جدیدی که وارد این علم شده به سادگی از آن عبور شده و انتخاب نمی شود.
با این اوصاف دو راه حل باقی می ماند؛ راه حل اول که بیشتر به پاک کردن صورت مسئله می ماند این است که بگوییم نمایه سازی ماشینی در مورد علومی که از پویایی و به روز بودن برخوردارند مناسب نیست و راه حل دوم، رایانه کلمات و عبارات جدیدی که در اصطلاح نامه و در لیست بازدارنده وجود ندارند را به نمایه ساز انسانی معرفی کند تا هم به اصطلاح نامه اضافه شوند و هم در صورت اهمیت به عنوان کلیدواژه اصلی به مدرک تخصیص داده شوند که در این صورت باید نمایه سازی رایانه ای را نمایه سازی به کمک رایانه نامید!
بنابراین یکی دیگر از ایرادات نمایه سازی ماشینی از نوع تخصیصی، به روز رسانی اصطلاح نامه پایگاه هایی است که اصطلاحاتش دائما در حال تغییر و یا افزایش است.

مستند اسامی

از آنجاییکه رایانه برای تخصیص کلیدواژه ها از اصطلاح نامه استفاده می کند طبیعی است که هر چه خارج از اصطلاح نامه باشد نادیده گرفته می شود. خیلی از این موارد، کلمات موجود در لیست بازدارنده و کلمات و عبارات مترادف هستند، اما به غیر از این موارد کلمات و عبارات دیگری نیز هستند که با وجود اهمیت برای استخراج به دلیل وجود نداشتن در اصطلاح نامه، محسوب نمی شوند. اسامی اشخاص حقیقی و حقوقی نمونه ای از این موارد هستند که در خیلی از موارد از اهمیت بازیابی بالایی نیز برخوردارند. برای تخصیص این کلمات و عبارات و مواردی از این دست باید در کنار اصطلاح نامه از مستند اسامی حقیقی و حقوقی، جغرافیایی و ... استفاده کرد تا بتوان چنین مواردی را نیز از متن استخراج کرد.
در انتها و بعد از برشمردن معایب و مشکلات، با اشاره ای کوتاه به دو مقوله «نمایه سازی به کمک رایانه» و «نمایه سازی وب» بحث نمایه سازی ماشینی را به پایان خواهیم رساند.

نمایه سازی به کمک رایانه

رایانه در بسیاری از موارد با یاری رساندن به نمایه ساز انسانی می تواند عامل مناسبی برای سرعت بخشیدن به امور و در نتیجه کاهش زمان و هزینه باشد. در این قسمت به برخی از این خدمات اشاره می کنیم.
الف) رایانه می تواند مصحح و کنترل کننده خوبی برای عوامل انسانی باشد. اگر نمایه سازی سهوا از کلیدواژه های غیراصطلاح نامه ای و یا ترکیب سرعنوان یا سرعنوان فرعی نامعتبری استفاده کند رایانه می تواند بلافاصله این اشتباه را به نمایه ساز متذکر شود تا نمایه ساز برای رفع آن اقدام کند.
ب) در برخی موارد برای تسریع در روند انجام کار، رایانه به جای عامل انسانی اقدام به مرور متن و اختصاص کلیدواژه به مدرک می کند. بعد از اتمام کار، نتیجه به نمایه ساز انسانی تحویل داده می شود تا با بررسی کلیدواژه ها موارد اشتباه را حذف و مواردی که تخصیص داده نشده اند را اضافه کند. به این ترتیب عامل انسانی به جای نمایه سازی، در نقش ناظر عمل می کند که خود موجب صرفه جویی به سزایی در وقت و هزینه می شود.
ج) یکی از کارهای وقت گیر و خسته کننده که نیاز به دقت زیادی هم دارد تهیه نمایه آخر کتاب است. رایانه می تواند این کار را سریعتر و دقیقتر انجام دهد که به آن «نمایه سازی ماشینی انتهای کتاب»23 می گویند. تهیه نمایه انتهای کتاب بصورت ماشینی طبق معمول به دو صورت استخراجی و تخصیصی انجام می شود. آرتاندی24 از پیشگامان این طرح، بوسیله رایانه، نمایه آخر کتابی تهیه کرد که از نوع تخصیصی و در حوزه شیمی بود. او معتقد بود که کیفیت این نوع نمایه با نمایه دستی برابری می کند. نمایه سازی ماشینی استخراجی به مراتب ساده تر از نوع تخصیصی است. ارل25 در این زمینه معتقد است تولید نمایه انتهای کتاب بوسیله رایانه مستلزم استخراج عبارات اسمی است که در صورت ویرایش آن و حذف اصطلاحات غیرضروری می تواند نمایه آخر کتاب مناسبی تهیه شود.

نمایه سازی وب

وب بر خلاف تصور بسیاری از مردم عادی با اینترنت تفاوت داشته و فقط شامل بخشی از خدمات اینترنت می باشد. اطلاعات و مدارک موجود در وب با سرعت روزافزونی در حال افزایش است که استفاده از این حجم عظیم اطلاعات نیاز به سازماندهی پایاپای با سرعت انتشار آن دارد. صرف نظر از میزان صفحات وب، طبق آمار Net Craft در سال 2002 بیش از 27 میلیون سرویس دهنده وب مشغول ارائه خدمات به کاربران بوده اند. واضح است که نمایه سازی این مقدار از اطلاعات از توانایی عوامل انسانی خارج بوده و نیاز به نرم افزارهای بسیار حرفه ای می باشد. موتورهای کاوش را می توان نمونه ای از نمایه سازی ماشینی نام برد که با بررسی صفحات وب و پیوندهای26 موجود در آن اقدام به نمایه سازی می کنند. موتورهای کاوش با بررسی قسمت های مختلف صفحات وب مانند "Title"، متا تگ ها، کلیدواژه های پربسامد "Body" و ... اقدام به نمایه سازی می کنند.
صفحات وب معمولا در قالب "Html"27 ارائه می شوند که زبان استاندارد وب نامیده می شود. مشکلات موجود در "Html" سبب شد تا زبان دیگری برای معرفی و نمایه سازی بوجود آید که وظیفه آن ذخیره، حمل و تبادل داده هاست و نه نمایش آنها. این زبان را XML28 نامیدند که به معنی زبان نشانه گذاری توسعه پذیر است. امروزه XML نقش بسزایی در نمایه سازی ماشینی دارد و کاربردهای آن در حال افزایش و پیشرفت می باشد.

نتیجه گیری

بعد از برشمردن برخی از مهمترین معایب و مشکلات بصورت عام برای نمایه سازی ماشینی و بطور خاص برای نوع تخصیصی، اکنون با دید روشنتری می توان درباره آن تصمیم گیری کرد. با توجه به مسائل مطرح شده به یقین می توان گفت که نمایه سازی ماشینی از لحاظ کیفیت کاری نمی تواند جایگزین مناسبی برای نمایه سازی انسانی باشد. مخصوصا در مورد پایگاه های تخصصی که رایانه معمولا کلیدواژه های عام تری اختصاص می دهد در حالی که در این نوع پایگاه ها به کلیدواژه های خاص تری احتیاج است. مشکل تخصیص کلیدواژه های انتزاعی نیز از دیگر معایب اصلی نمایه سازی ماشینی است که سبب عملکرد نامناسب آن می شود.
اما با وجود این معایب و مشکلات بعد از گذشت سالها چه چیزی سبب می شود تا همچنان متخصصان در پی برطرف کردن این مشکلات و پیشرفت سطح نمایه سازی ماشینی باشند. دلیل این مسئله همان طور که در مقدمه نیز به آن اشاره شد به خاطر انبوه اطلاعات و افزایش روزافزون آن است که هر از چند گاهی با ظهور تکنولوژی های جدید سرعتی بیش از پیش پیدا می کند. واضح است که نمایه سازی انسانی جوابگوی این حجم از اطلاعات نبوده و فقط مقدار بسیار ناچیزی از آن را می تواند جوابگو باشد. رایانه تنها راه حل تسریع در روند امور است تا با انجام آن، نمایه ساز انسانی فقط در نقش ناظری بر نمایه سازی ماشینی به ایفای نقش بپردازد.
از تمامی مطالب گذشته نتایج کلی زیر به دست می آیند:
1. نمایه سازی ماشینی از لحاظ کیفیت کار نمی تواند جایگزین مناسبی برای نمایه سازی انسانی باشد.
2. رایانه با کمک به نمایه ساز انسانی می تواند عامل موثری در کیفیت و تسریع انجام امور داشته باشد.
3. به نظر می رسد نمایه سازی ماشینی به معنای واقعی و بدون دخالت انسان برای مواردی که با حجم بسیار زیاد اطلاعات سر و کار داشته باشیم گزینه مناسبی باشد. در این موارد کیفیت مطرح نبوده و کمیت به مقداری زیاد است که تخصیص اشتباه کلیدواژه ها و یا تخصیص ندادن کلیدواژه های مهم و اصلی به متن خیلی مشکل ساز نمی باشند. وب مثال خوبی در این زمینه است. تمامی کاربران وب این مسئله را تجربه کرده اند که با جستجوی واژه ای در موتورهای جستجو، نتایج نامطلوب29 و بی ارتباطی نیز بازیابی شده است. اما با توجه به موارد مطلوب و مورد انتظار بازیابی شده اهمیتی برای موارد نامطلوب قائل نشده و معمولا از جستجوی انجام شده راضی و خشنود هستند. بنابراین می توان گفت در مواردی که کمیت، کیفیت را تحت الشعاع قرار می دهد نمایه سازی ماشینی می تواند موثر واقع شود.

خاتمه

در انتها باید گفت که تعامل نمایه سازی ماشینی با اصطلاح نامه ها افق های روشنی را پیش روی دارد که رفع این معایب و مشکلات را نوید می دهد. امروزه با ظهور مباحث جدیدی مانند هوش مصنوعی30 در علوم رایانه ای و موفقیت هایی که در این زمینه به دست آمده، ما را بیش از پیش به رفع این معایب امیدوار می کند.
به امید روزی که کشور عزیز ما نیز با پرداختن به چنین مسائلی در سطح جهانی، عامل مهمی گردد برای پیشرفت و ترقی در علوم دیگر.

منابع

* لنکستر، اف دبلیو. نمایه سازی و چکیده نویسی. ترجمه عباس گیلوری. تهران: چاپار، 1382.
* یوسفی، احمد. "اصول و روشهای نمایه سازی رایانه ای". فصلنامه کتاب. دوره 9، شماره 2.
* خالوئی، مرضیه. "نمایه سازی ماشینی". فصلنامه کتاب. دوره 6، شماره 3.
* نیاکان، شهرزاد. "امکان سنجی نمایه سازی ماشینی مدارک زبان فارسی در مرکز اطلاع رسانی جهاد کشاورزی". فصلنامه اطلاع رسانی. دوره 18، شماره 3 و 4.
* نیاکان، شهرزاد. "بررسی کاربرد نمایه سازی ماشینی در کتابخانه ها". فصلنامه اطلاع رسانی. دوره 17، شماره 3 و 4.
* کمیجانی، احمد. "ساختار نمایه سازی در موتور های کاوش وب". فصلنامه اطلاع رسانی. دوره 17، شماره 3 و 4.
* طاهری، مهدی. "کارگاه آموزشی نمایه سازی پیشرفته". مرکز اطلاعات و مدارک اسلامی. تابستان 85.

* Sebastiani, Fabrizio. "Automatic Text Categorization". Machine Learning in Automated Text Categorization: a Bibliography. Accessed October 2007. Available http://nmis.isti.cnr.it/sebastiani/publications/acmcs02.pdf
* Hlava, Marjorie. "Automatic Indexing". Automatic Indexing. Accessed October 2007. Available www.accessinn.com/papers/auto_indexing_comparison_reprint_Aug05.pdf
* Bruandet, M. F. "Automatic And Dynamic Thesaurus". A Conceptual Framework For Automatic And Dynamic Thesaurus Updating In Information Retrieval Systems. Accessed October 2007. Available acl.ldc.upenn.edu/C/C80/C80-1089.pdf
* "Automatic Indexing". Automatic Indexing Today. Accessed October 2007. Available www.kaim.com/site/literature/auto_white.pdf
* Wessel, Andrew E. "Machine Indexing". Some Thoughts On Machine Indexing. Accessed October 2007. Available http://handle.dtic.mil/100.2/AD671989
* Stevens, Mary Elizabeth. "Automatic Indexing". Automatic Assignment Indexing Techniques. Accessed October 2007. Available http://www.itl.nist.gov/iaui/894.02/works/pubs/mono91/04.txt


1. Automatic Assignment Indexing
2. Machine Indexing
3. Automatic Indexing
4. Computerized Indexing
5. Gerhard Lustig
6. Hermann Fangmeyer
7. طرحی با عنوان «تحلیل عنوان و چکیده مدارک با موضوع فیزیک برای پایگاه اطلاعاتی فیزیک» توسط دانشگاه فنی دارمشتات آلمان
8. The EURATOM automatic indexing project In Proceedings of the IFIP Congress (1968)
9. CETIS automated indexing system In Proceedings of the Symposium on the Handling of Nuclear Information (1970)
10. سیستم نمایه سازی زبان آلمانی و دیگر زبان ها توسط Siemens
11. The automatic indexing system has ben used in the input production of the physics data base
12. سیستم ذخیره و بازیابی اطلاعات طراحی شده توسط IBM (1972)
13. Automatic Extraction Indexing
14. Automatic Assignment Indexing
15. Baxendale (1958)
16. H. P. Luhn (1957)
17. Stop List (Stop Words)
18. Topic Sentence
19. نمایه سازی و چکیده نویسی، اف. دبلیو لنکستر (ترجمه عباس گیلوری)، ص 380
20. Cutoff Point
21. Hyper Text Markup Language
22. جمله موضوعی جمله ای است که بیشترین اطلاعات را درباره محتوا فراهم می آورد.
23. Automatic back of book indexing
24. Susan Artandi (1963)
25. Lois L. Earl (1970)
26. Link
27. Hyper Text Markup Language
28. Extensible Markup Language
29. ریزش کاذب
30. Artificial Intelligence

+ نظر جدید

تصویر امنیتی کد جدید