• مشکی
  • سفید
  • سبز
  • آبی
  • قرمز
  • نارنجی
  • بنفش
  • طلایی
عضویت در خبرنامه
آنتولوژی چیست ...
توسط : bookman

در معنی عام کلمه، آنتولوژی به شاخه‌ای از علم فلسفه اتلاق می‌گردد که به دنبال پاسخ به سؤالاتی از قبیل «هستی چیست؟» و «چه ویژگی‌های مشترکی در بین تمام موجودات وجود دارد؟» می‌باشد. در فلسفه، آنتولوژی سیستمی از دسته‌های مختلف است که از دیدگاه خاصی نسبت به دنیا ایجاد شده‌اند.

در سال 1980، مجمع هوش مصنوعی از لغت آنتولوژی برای دو منظور استفاده کرد: نظریه‌ای در مورد جهان مدل شده و مؤلفه‌ای از سیستم‌های دانش. این مجمع از این وسیله برای اثبات خودکار بهره گرفت. آنتولوژی در هوش مصنوعی و همچنین علوم کامپیوتر به مجموعه‌ای از لغات و فرضیات (عموماً در منطق مرتبه‌ی اول) گفته می‌شود که با توجه به معنی آن لغات ایجاد شده‌اند و به منظور توصیف یک واقعیت خاص طراحی شده‌اند. استفاده از این مفهوم در سال‌های اخیر بسیار رواج یافته است و دلیل این امر را می‌توان افزایش ارتباطات و اطلاعات دانست.  

تولید اتوماتیك شبه-آنتولوژی به روش استخراج مفاهیم از وب توسعه و رشد وب معنایی مشوق اصلی تولید آنتولوژی در دامنه های متفاوت میباشد. تولید آنتولوژی معمولا وقت گیر، خسته كننده، خطادار و وابسته به دانش مهندس دامنه است . یكی از مشكلات اصلی در این زمینه ، دسترسی به مجموعه واژگان معتبر و كامل برای تولید آنتولوژی است . در این تحقیق با استفاد ه از یك روش نمونه برداری صفحات اولیه در مقیاس بزر گ و استفاده از الگوریتمهای پردازش زبان طبیعی، تحلیلهای آماری و تکنیک های بازیابی اطلاعات، یك روش اتوماتیك برای تولید شبه-آنتولوژی برای دامنه پژوهش در علوم كامپیوتر پیشنهاد شده است. هدف اصلی ما تهیه اتوماتیك مجموعه بزرگی از واژگان و مفاهیم اصلی دامنه است كه كار تولید آنتولوژی را سریعتر و راحتتر كند. بدین منظور صفحا ت مرتبط در این دامنه با استفاده از یک خزشگر تاکید ی مبتنی بر واژگان مورد استفاده قرار گرفته و با استفاده از تكنیكهای مذكور لیست كاملی از واژگان دامنه استخراج شده است. برای استفاده مجدد این روش در دامنههای دیگر، فرآیند ساخت آنتولوژی نیز تا حد ودی مستقل از دامنه پیاده سازی شده است.

مقدمه

اطلاعات و منابع موجود در وب بصورت فزآیندهایی رو به رشد هستند و استفاده كنندگان وب نیازمند یك درك مشترك از آنها دارند. آنتولوژی نقش اصلی را در مبادله اطلاعات و توسعه وب لغوی بسمت وب معنایی دارد. آنتولوژی یك مدل مفهومی است که موجودیتهای واقعی در یک دامنه خاص و روابط بین آنها را به صورت صریح و رسمی مدلسازی می کند. مشكل اساسی كار ، تهیه دستی آنتولوژی استكه وقت گیر، خسته كننده و دارای خطا می باشد و به دانش كافی در زمینه دامنه كاربرد و زبان توصیف آنتولوژی نیاز دارد. در اینجا یك روش تركیبی از روشهای موجود برای تولید شبه آنتولوژی بعنوان مبنای تولید آنتولوژی برای دامنه "حوزه پژوهش در علوم كامپیوتر" بكار گرفته شده كه قسمت زیادی از كار را بدون از دست دادن كیفیت و مستقل از دامنه بطور اتوماتیك انجام میدهد.

 

برنامه های خاص

دراین تحقیق دونوع برنامه خاص منظوره نوشته شده است: خزشگر و سازنده آنتولوژی.  وظیفه "خزشگر " جمع آوری صفحات وب می باشد و شامل دو قسمت است: خرشگر معمولی که با شروع از یک آدرس URL به جمع آوری صفحات می پردازد و "خزشگر تاکیدی " که با استفاده از یك آنتولوژی به جمع آوری صفحات مربوط به یک حوزه خاص میپردازد. یکی از ماجولهای مهم آنHTML2TEXT  میباشد که وظیفه آن تبدیل فایل HTML  ورودی به محتوای متنی متناظر میباشد. برنامه "سازنده آنتولوژی " با استفاده از صفحات جمع آوری شده توسط خزشگر معمولی به استخراج واژگانی که با فرکانس بالا تکرار میشوند میپردازد. در اینجا از ماجول آمادهPorter Stemmer  استفاده شده است که با دریافت هر کلمه، ریشه آنرا به عنوان خروجی برمی گرداند. با استفاده از این ماجول کلمات هم خانواده به یک ریشه یکسان تبدیل میشوند که حجم واژگان استخراج شده از صفحات را به طور چشمگیری کاهش میدهد.

 

ابزار توسعه آنتولوژی

یكی از تصمیمات مهم در فرآیند ساخت آنتولوژی، انتخاب ابزار ویرایش و زبان نمایش آنتولوژی است . این دو پارامتر روی چرخه حیات آنتولوژی، كیفیت و استاندارد سازی آن تاثیر مستقیم دارند . از نرم افزار Protégé 3.1.1 میتوان بعنوان محیط ویرایش و توسعه آنتولوژی استفاده نمود.  محیط Protégé با تعیین كلاسها، سلسله مراتب آنها و نمونه های عضو هر یك، آنتولوژی را بهتر توصیف میكند . این محیط امکان توسعه آنتولوژی یک حوزه را از طریق ابزارهای متعدد مدلسازی بسهولت فراهم میكند و میتوان به شیوه کاملا بصری و بدون نیاز به درگیری با جزئیات قالبهای فوق الذکر، به ساخت، دستکاری اجزاء و پشتیبانی آنتولوژی پرداخت.  از OWL میتوان بعنوان زبان نمایش و توصیف رسمی مفاهیم در آنتولوژی استفاده نمود. این زبان علاوه بر نمایش سمبلیك معانی، روشهای رسمی را برای بكارگیری و پردازش آنها تعریف میكند. در این زبان جستجو و كشف روابط بین مفاهیم، یافتن ناسازگاریها در آنتولوژی، پردازش اطلاعات داخل مستندات بسادگی انجام می شوند. از این زبان می توان برای نمایش صریح معنی واژه ها در لغت نامه و ارتباط بین آنها استفاده نمو د.

 

روش انجام كار

راه حل پیشنهادی، یک روش نیمه اتوماتیک است. ابتدا یك لیست اولیه از واژگان مربوط به دامنه مورد نظر توسط مهندس دانش تهیه میگردد. این لیست بعنوان "دانه" در تهیه شبه آنتولوژی مورد استفاده قرار می گیرد. سپس با کمک موتورهای جستجوگر، نمونه هایی از صفحات اولیه از دامنه را جمع آوری می نماییم . سپس با استفاده از خزشگر تاكیدی یك انباره از صفحات آموزشی را استخر اج می كنیم و با استفاده از تکنیک های پردازش آماری، بازیابی اطلاعات و پردازش متن از مجموعه این صفحات، یک سری واژه  استخراج می نماییم . این مجموعه کلمات تشکیل یک شبه آنتولوژی می دهند. در توسعه های آتی میتوان این شبه آنتولوژی را اصلاح نموده و با درج روابط بین مفاهیم و تعیین ویژگیها، آنرا را به یك آنتولوژی کامل تبدیل نمود. در قسمت های زیر جزئیات عملیات انجام شده جهت ساخت شبه -آنتولوژی را توضیح میدهیم.

 

تهیه صفحات نمونه

در این مرحله نمونه های جامعی از حوزه مورد نظر پید ا نمودیم . این نمونه ها باید تا حد امکا ن نماینده صفحات موجود در این دامنه باشند .

نکته مهمی که در مساله نمونه برداری باید ملاحظه شود تنوع نمونه ها است. در واقع نمونه هایی که از لحا ظ ساختار و معنا شبا هت زیادی به

هم دارند، از لحاظ اطلاعاتی چندان حائز اهمیت نیستند. مجموعه این صفحات میتواند دو کاربرد متفاوت در عملیات خزش تاکیدی داشته باشد. کاربرد اول آشنایی با ادبیات دامنه (مجمو عه واژگان) است كه ما با استفاده از این کاربرد، یک بردار (شبه آنتولوژی) برای کل صفحات مرتبط ساختیم. کاربرد دوم اولویت دهی و کشف الگوهایی برای آدرس های صفحات مرتبط است. در این تحقیق فقط از کاربرد اول استفاده نمودیم و قصد داریم در توسعه های آتی از کاربرد دوم نیز استفاده كنیم . برای نیل به این هدف، صفحاتی را پیدا کردیم که حاوی تعداد زیادی لینک به صفحات مطلوب در حوزه مورد نظر باشند.

 

تولید اتوماتیك شبه-آنتولوژی

با استفاده از صفحات نمونه مرحله قبل ، یک مجمو عه از عبارتهایی که در حوزه مورد نظر اهمیت دارند استخرا ج میکنیم. به این عبارتها در حالت کلی ادبیا ت حوزه می گویند. ادبیات حوزه در واقع یک حالت بسیار ساده از آنتولوژی است كه شبه آنتولوژ ی نامیده می شوند .همانطور گه گفته شد آنتولوژی توصیف رسمی یک دامنه است . این توصیف دو بخش اصلی دارد . کلمات و روابط میان آنها . کلمات در واقع همان ادبیات حوزه هستند و روابط میان کلمات بخش رفتاری آنتولوژی را می سازد. ما این شبه آنتولوژی را به صورت یک بردار از ترم ها در نظر میگیریم. نحوه ساخت این بردار به این صورت است که ابتدا تمام کلمات استفاده شده در مجموعه صفحات را همراه با تعداد تکرار هر کدام استخراج می کنیم و پس از مرتب کردن آنها بر حسب میز ان تکرار، آنهایی که خاصیت تمیز دهندگی ندارند ر ا حذف میکنیم. کلماتی که حذف میشوند را میتوان به سه دسته تقسیم کرد:

1-     کلمات ایست معمولی : این کلمات که تعداد آنها تقریبا ۲۰۰ تا است در زمینه بازیابی اطلاعات بسیار شناخته شده هستند به عنوان مثال میتوان به . . .,am, is, a, as اشاره کرد.

2-      عبارتهایی که تکرار خیلی پایینی دارند، پس از حذ ف کلمات ایست حدودا ۵۷۰۰۰ کلمه باقی ماند . از این کلمات حدود ۸۰ درصد آنها تکراری کمتر از ۱۰ بار داشتند. در واقع این کلمات فرکانس قابل اعتنایی ندارند و در فرآیند جستجو و طبقه بندی چندان مفید نیستند. به همین دلیل و نیز به دلیل کاهش سرباره ا ی محاسبات، کلماتی که کمتر از ۹۰ بار تکرار شده بودند حذف نمودیم .

3-     کلماتی که تکرار بالایی دارند اما خاص این حوزه نیستند: در واقع کلمات عمومی هستند که در همه حوزه ها وجود دارند ما این کلمات را NewStopword می نامیم . روش مورد استفاده ما در حذف این گونه کلمات ، استفاده از مثالهای منفی  است . در واقع ما از یک شبه آنتولوژی عام استفاده می کنیم تا کلمات غیر توصیف کننده را در حوزه مورد نظر خود کشف و حذف کنیم.  ما پس از ساخت این شبه آنتولوژی عام، کلماتی که در اشتراک این شبه آنتولوژی عام و آنتولوژی ساخته شده برای حوزه علوم کامپیوتر موجود بودند را از لیست اولیه حذف کردیم.

 

عملیا ت ریشه یابی

شبه آنتولوژی بدست آمده تا این مرحله دارای عبارتهای تكراری زیادی است و لذا در این مرحله عملیات ریشه یابی  را انجام دادیم تا در حالت کلی جنبه یاد آوری و دقت ر ا افزایش دهیم . دقت و یادآوری دو معیار مهم در ارزیابی سیستمهای بازیابی اطلاعات براساس آنتولوژی هستند. در این عملیات، برای هر کلمه ریشه لغوی آن را پیدا نموده و موارد تكراری را حذف نمودیم. به عنوان مثال ریشه همه کلمات  Computing  و Computer, Computation کلمه Compute است . الگوریتمهای متنوعی برای انجام عملیات ریشه یابی  در زبان انگلیسی وجود دارند که مهمترین آنها الگوریتم كد باز Porter  میباشد. عملیات ریشه یابی در این حوزه باعث کاهش تعداد  شاخصها به میزان ۲۰ درصد شده است. خروجی این قسمت یک بردار توصیف حوزه علوم کامپیوتر (شبه آنتولوژی)  است که دارای حدود ۸۰۰ کلمه ویژه میباشد .

 

 

ارزیابی آنتولوژی

برای ارزیابی آنتولوژی روشهای متفاوتی وجود دارد كه ما در اینجا از معیار كاربرد آنتولوژی و روش مبتنی بر پردازش زبان طبیعی استفاده كرده ایم. هدف ما تعیین میزان كارایی آنتولوژی در كاربرد بازیابی صفحات متنی از وب و میزان صحت آنها میباشد. بنابراین ما از یک خزشگر تاكیدی استفاده كردیم كه وظیفه آن یافتن و جمع آوری صفحات وب بر اساس شبه آنتولوژی بدست آمده است. رفتار این خزشگر در حالت کلی مشابه خزشگر ها ی معمولی است با این تفاوت که پس از بررسی صفحات ، فقط در صورت مطلوب بودن آنها اقدام به ذخیره سازی و شاخص گذاری میکند و در غیر اینصورت از آنها و لینک هایشا ن صرفنظر میکند.  خزشگر تاکیدی با استفاده از یک فیلتر (میزان مطلوبیت صفحه که معمولا بر حسب شباهت محتوای صفحه به حوزه موردنظر محاسبه می شود) بعضی از مسیرها را هرس میکند. در روش ، ابتد ا میزان شبا هت هر صفحه جدید ر ا نسبت به شبه آنتولوژ ی تولید شده محاسبه می نماییم. ابتدا کلمات موجود در صفحه جدید را استخراج کرده و یک بردار برای آن میسازیم . آنگاه با استفاده از مدل فضای برداری شباهت صفحه جدید و شبه آنتولوژی را محاسبه می کنیم و در صورتی که از مقدار آستانه بیشتر باشد آن صفحه را ذخیره نموده و پس از استخراج لینک هایش عملیات را روی آن تکرار میکنیم. با توجه به اینکه در اینجا مساله نگهداری یا حذف صفحات جدید یک مساله دوحالته است، برای تسهیل عملیات از برای بازیابی استفاده کرده ایم. در واقع نسبت ترم های مدل بولی مشترک بین شبه آنتولوژی و صفحات جدید به کل ترم های موجود در شبه آنتولوژی را به عنوان معیار رد یا قبول صفحات به کار گرفته ایم.  اما این معیار به تنهایی منجر به بروز یک مشکل مهم میشود. هنگامیكه به یک صفحه بسیار بزرگ (مثلا یک وبلاگ) برخورد می کنیم ، اگر بخش کوچکی از آن به علوم کامپیوتر اختصاص داده شده باشد، با توجه به این نکته که میزان اشتراک کلمات صفحه و آنتولوژی به کل کلمات آنتولوژی مقدار قابل توجهی است، این صفحه به عنوان یک صفحه مرتبط شناخته خواهد شد در حالی که چنین نیست . برای رفع این معضل ، راه حل پیشنهادی ما در نظرگرفتن دو حد آستانه است:

1-     حد آستانه دقت كه به صورت نسبت اشتراک کلمات شبه آنتولوژی و صفحه به اندازه شبه آنتولوژی تعریف می شود. لذا فقط صفحاتی از این فیلتر رد خو اهند شد که حداقلی از ترم های حوزه علوم کامپیوتر (اینجا ۲۰ کلمه)  را در خود داشته باشند.

2-     حد آستانه یاد آوری  كه عبارتست از نسبت اند ازه مجموعه اشتراک صفحه و شبه آنتولوژی به اندازه صفحه . این معیار باعث حذف صفحاتی می شود كه فقط درصد کمی از حجم خود را به حوزه مورد نظر اختصاص داده اند.

از نکات مهم در مبحث خزش تاکیدی اولویت دهی به لینک های خروجی است و روش های متعددی برای آن وجود د ارد . روش ما به این صورت است كه در صورت برخورد با یک لینك نامربوط (که براسا س محتوا مشخص می شود) از پردازش لینک های خروجی آن خودداری میکنیم. اما برای دو نوع صفحه دیگر (مربوط و مربوط با حجم بالا)  لینک ها ی خروجی را نیز پردازش میکنیم. برای انجام عملیات خزش، با توجه به اینکه درصد بسیار ناچیزی از مجموعه کل صفحات به حوزه مورد نظر مربو ط هستند، در صورتی که مانند خزشگرهای معمولی از دایرکتوری های همه منظوره (مانند  Dmoz یا Yahoo) شروع کنیم مشکل عمده ، محدودیت تعداد لینک های آنهاست . برای رفع حل این مشکل صفحاتی را پیدا کردیم که در زمینه پژوهش علوم کامپیوتر اصطلاحا Hub  ها ی خوبی باشند . مفهوم Hub اولین بار توسط آقای Kleinberg و در قالب الگوریتم HITS  معرفی شد. صفحات Hub صفحاتی هستند که حاوی تعداد زیادی لینک به صفحات مورد نظر کاربر باشند .  به عنوان مثال می توان به موتور جستجوی Teoma اشاره کرد که پس از دریافت یک عنوان سعی میکند Hub های مناسب را برای آن پیدا کند. ما با استفاده از این موتور تعدادیHub  مناسب برای حوزه پژوهش در علوم کامپیوتر پیدا نمودیم:

1-     لیست دانشگاههای دارای دپارتمان علوم كامپیوتر

2-     لیست علوم كامپیوتر

3-     افراد و سازمانهای مرتبط با علوم كامپیوتر

از میان این صفحات ، اولین مورد به دلیل گستردگی و تنوع نمونه ها گزینه بسیار مناسبی میباشد. با شروع از این سایت و با استفاده از خزشگر تاكیدی در مدت حدود ۲۴ ساعت موفق به گرد آوری بیش از ۲۲۰۰۰ صفحه شدیم. سپس با استفاده از میزان شباهت واژگان هر

صفحه به شبه آنتولوژی مرحله قبل و با کمک حدود آستانه تنظیم شده، از این تعداد حدود ۸۰۰۰ صفحه مرتبط تشخیص داده شدند. بررسی تصادفی صفحات نشان داد كه با دقت بسیار خوبی (حدود۷۰ % ) صفحات مرتبط با موضوع شناسایی شده اند. بنابراین میتوان نتیجه گرفت آنتولوژی تولید شده با درصد مناسبی می تواند برای شناسایی و استخراج صفحات وب مورد استفاده قرار گیرد.

 

نتیجه گیری

در این مقاله، ما یك روش تولید اتوماتیك شبه-آنتولوژی را برای دامنه پژوهش در علوم كامپیوتر توضیح دادیم. مبنای اصلی تولید آنتولوژی كامل دامنه، تهیه یك لیست كامل و مرتبط از واژگان می باشد كه در روشهای دستی توسط مهندس دامنه تعیین میگردند و معمولآ سخت ،

وقت گیر و ناكامل است. ما در این تحقیق یك روش اتوماتیك را برای استخراج آنها از صفحات وب پیشنهاد نمودیم. روش ما تركیبی از بكارگیری تكنیكهای تحلیل آماری، پردازش زبان طبیعی و خزشگر تاكیدی بود . مزیت های عمده روش ما ، استقلال از دانش ذهنی متخصص دامنه و اتوماتیك سازی فرآیند تهیه مجموعه واژگان اولیه از مجموعه بزرگی از صفحات متن در وب بود. اندك نمودن فعالیتهای دستی، سادگی فرآیند، اتوماتیك سازی فرآیند تست شبه-آنتولوژی، و قابلیت استفاده مجدد این روش در سایر دامنه ها از مزیتهای جانبی این روش می باشد. نهایتآ اینكه شبه آنتولوژی تولید شده می تواند با دقت مناسبی برای شناسایی و استخراج صفحات متن آزاد و شبه -ساختیافته در وب مورد استفاده قرار گیرد.

شنبه 12/2/1388 - 18:52
پسندیدم
UserName