متن‌کاوی ابزاری کارآمد به‌منظور مستندسازی و تکمیل مصاحبه‌های تاریخ شفاهی

صالحی, پیمانه

متن‌کاوی ابزاری کارآمد به‌منظور مستندسازی و تکمیل مصاحبه‌های تاریخ شفاهی

نوع مقاله : مقاله پژوهشی

نویسنده

پیمانه صالحی

نویسنده و پژوهشگر تاریخ شفاهی، کارشنا‌س‌ارشد زبان و ادبیات فارسی

چکیده

هدف: اهمیت به‌کارگیری ابزار متن‌کاوی به‌منظور مستندسازی منابع تاریخ شفاهی و کشف روابط معنایی در مصاحبه‌ها برای تکمیل داده‌های گردآوری شده و تبدیل مصاحبه‌ها به آثاری پژوهشی، با قابلیتِ استناد.
روش: لزوم بهره‌مندی از ابزارهای نوین پردازش اطلاعات در فرآیند تاریخ شفاهی با استناد به منابع کتابخانه‌ای تبیین شده است و روش‌های استفاده از آن بازنمایی و تجزیه‌وتحلیل شده‌اند.
یافته‌ها: بهره‌گیری از فناوری‌های نوین همچون متنکاوی و کشف روابط معنایی، در راستای رفع ابهام و راستی آزمایی مصاحبه های تاریخ شفاهی به دلیل دقت، جامعیت و سهولت در استفاده، موجب ارتقای دادههای حاصل از مصاحبه ها می‌شود. بهره‌مندی از این ابزارها در زمان انجام مصاحبه و پس از آن در هنگام تدوین و ویراستاری متن، کاربرد دارد. هرچه پژوهشگران تاریخ شفاهی به مستندسازی، گویاسازی و راستی‌آزمایی مصاحبه‌ها در مراحل مختلف پژوهش و با تمرکز بر قالب‌های نوین اطلاعات، بیشتر توجه کنند، متن نهایی به اهداف انجام مصاحبه، یعنی تولید داده‌های جدید در حوزة‌ موضوعی خاص، نزدیکتر می‌شود.

کلیدواژه‌ها

عنوان مقاله [English]

Text mining an Effective Tool for Documenting and Completing Oral History interviews

نویسنده [English]

Peymaneh Salehi

Author and Researcher of Oral History

چکیده [English]

Oral history, as one of the new methods of collecting information, has gone through a path full of ups and downs to establish itself as a research tool for historical studies. This research method has a narrative feature and recounts events based on the insights and hearings of observers of historical periods. In the meantime, documenting, verifying and interpreting the texts obtained from the interviews is very important. The purpose of this paper is to emphasize the need to use practical information processing tools such as text mining and discover semantic relationships in order to complete the sources of oral history. The need to use modern information processing tools in the process of oral history has been explained and analyzed with reference to library resources and methods of using it. The use of these technologies makes it easier to supplement the data and improve the content of the interview and ultimately turn it into a research-based and citationable work and brings the interview closer to its goals.

کلیدواژه‌ها [English]

Oral history
Interview
Documentation
Text mining
Semantic relations

اصل مقاله

مقدمه

گسترش پایگاه داده‌ها در عصر ارتباطات، موجب افزایش تقاضا به‌منظور تبدیل داده‌ها به دانش مقید شده است. برای دسترسی به این دانش باید از ابزارهای قدرتمند بهره جست. متن‌کاوی^[1]یا استخراج دانش از پایگاه‌های متنی، یکی از همین ابزارها است. کشف و شناسایی دانش از متن^[2] به این معنا است که مفاهیم صریح و ضمنی و روابط معنایی بین داده‌ها با استفاده از تکنیک‌های پردازش زبان‌های طبیعی^[3] استخراج شود.

انجام مصاحبة تاریخ شفاهی یکی از روش‌های ثبت رویدادهای گذشته است؛ البته مزیت پژوهش بر پایة مصاحبه در این است که اطلاعات بی‌واسطه به‌دست می‌آیند و محقق را قادر می‌سازد تا تفاوت‌های ظریفی را دریابد که دربارة‌ مطالعة گذشته در خلال بازتاب تاریخ بروز می‌کند. اگر پژوهش تاریخ شفاهی به‌درستی انجام پذیرد، به پژوهشگران امکان می‌دهد تا به لایه‌های پنهان اسناد مکتوب پی ببرند و علاوه بر درک آنچه در گذشته روی داده، بدانند آن رویداد چطور رخ داده است.

مستندسازی، گویاسازی و راستی‌آزمایی مصاحبه‌های تاریخ شفاهی در زمان انجام مصاحبه و پس ‌از آن طی پروسة تدوین متن، یکی از بخش‌های حائز اهمیت در این روش پژوهشی قلمداد می‌شود. مصاحبه پس از عبور از این صافی‌های کیفی، به اثری با قابلیت استناد تبدیل می‌شود. در این میان، بهره‌مندی از ابزارهای نوین با هدف تکمیل داده‌های حاصل از تاریخ شفاهی، ضمن ایجاد سرعت و سهولت در این فرایند، با امکاناتی که در اختیار پژوهشگران قرار می‌دهد، موجب ارتقای سطح اطلاعات می‌شود و یاری‌رسان تاریخ شفاهی‌نگاران خواهد بود.

پژوهش حاضر در پیِ پاسخ به پرسش‌های زیر است:

چه روش‌هایی برای کشف دانش و پردازش زبان‌های طبیعی رواج بیشتری دارد؟
فرآیند متن‌کاوی با بهره‌مندی از کدام تکنیک‌ها به سطح بالاتری از کاربرد می‌رسد؟
استخراج روابط معنایی در منابع، چطور موجبات سهولت و دقت در مستندسازی و گویاسازی مصاحبه‌ها را فراهم می‌آورد؟
کاربرد متن‌کاوی به‌منظور تکمیل مصاحبه‌های تاریخ شفاهی، چه مراحلی را شامل می‌شود؟

در سال‌های اخیر، آثاری در حوزة متن‌کاوی، داده‌کاوی و وب معنایی و کاربرد این فناوری‌ها در علوم مختلف تألیف و ترجمه شده‌اند که تعدادی از آنها ذکر می‌شود:

امیر علی‌خانزاده (۱۳۸۵) با ترجمة کتاب داده‌کاوی، اثر مهمد کانتاردزیک[4] ضمن بررسی مفاهیم آن، کاربردهای داده‌کاوی را تجزیه‌وتحلیل کرده است.

کیوان معقولی و مرتضی زنگنه سروش (۱۳۹۱) با ترجمة کتاب اکتشاف دانش اثر دانیل تی لاروز ضمن تشریح مفاهیم پایه‌ای داده‌کاوی، آن را بستر پیشرفت علوم مختلف معرفی کرده‌اند.

نوید شیدایی (۱۳۹۱) با نگارش پایان‌نامه‌ای با عنوان متن‌کاوی متون فارسی، نحوة پیش‌پردازش و دسته‌بندی مقالات خبری را تشریح کرده است.

سودابه پارسا (۱۳۹۳) با تألیف پایان‌نامه‌ای با عنوان توسعه و بهبود روش‌های متن‌کاوی در کاربردهای فارسی، دشواری‌های این فناوری را در متون فارسی، تحلیل و با ذکر مطالعات موردی راهکارهایی برای حل آن مطرح کرده است.

بابک تیمورپور و حیدر نجفی (۱۳۹۴) با تألیف کتاب داده‌کاوی با R به همراه متن‌کاوی و تحلیل شبکه‌های اجتماعی، کاربرد متن‌کاوی در شبکه‌های اجتماعی را تجزیه‌وتحلیل کرده‌اند.

مریم علی‌کوثری (۱۳۹۶) با ترجمة کتاب داده‌متن‌کاوی اثر چارو سی آگروال و چنگ‌شیانگ ‌جای^[5] به کاربرد داده‌کاوی در علوم مختلف به تفکیک توجه داشته است.

عاطفه قهرمانی‌فر (۱۳۹۶) با نگارش پایان‌نامه‌ای با عنوان استخراج کلمات کلیدی با استفاده از تکنیک متن‌کاوی، به پردازش زبان‌های طبیعی و شباهت‌سنجی اسناد برای پیدایی کلیدواژه‌ها اشاره کرده است.

محمدرضا رمضان‌پور و ریحانه خورسند (۱۳۹۷) با ترجمة کتاب اصول کلان‌داده اثر توماس ارل و پاول بوهلر^[6]، ضمن بررسی مفاهیم، محرک‌ها و تکنیک‌های متن‌کاوی، به دلایل بهره‌مندی از این فناوری در دنیای مدرن اشاره کرده‌اند.

حامد آقایارزاده (۱۳۹۹) با ترجمة کتاب پیش‌بینی به وسیلة متن‌کاوی اثر شلم م. وایس و تانگ ژانگ[7]، به کاربرد آن برای ارتقای علوم مختلف پیش از انجام پژوهش اشاره کرده است.

بهاره پهلوان‌زاده (۱۴۰۰) با ترجمة کتاب تجزیه‌وتحلیل داده‌ها در ابر اثر دومینکو تالیا و پائولو ترانفیو[8] کاربرد داده‌کاوی را به بوتة نقد گذاشته و با نگاهی تازه به این فناوری نگریسته و مزایا و معایب آن را برشمرده است.

گفتنی است تاکنون پژوهشی مستقل مبتنی بر ضرورت بهره‌مندی از فناوری‌های نوین نظیر متن‌کاوی و داده‌کاوی^[9] در راستای مستندسازی و تکمیل مصاحبه‌های تاریخ شفاهی منتشر نشده است. بی‌تردید آشنایی با این تکنیک‌ها و کاربرد صحیح آنها، روشنایی‌بخش راه علاقه‌مندان و پژوهشگران تاریخ شفاهی خواهد بود.

کشف دانش و ارتباط با متن‌کاوی

امروزه با گسترش سیستم‌های اطلاعاتی، بهره‌مندی از ابزارهایی برای پردازش داده‌های ذخیره‌شده ضروری است تا کاربران از خلال این فرآیندهای نوین، به روابط منطقی میان اطلاعات پی ببرند. داده‌‌کاوی و زیرمجموعه‌های آن، از مهم‌ترین روش‌هایی هستند که ازطریق آنها الگوهای مفید در داده‌ها با حداقل دخالت کاربران شناخته و تحلیل می‌شوند. درواقع با کاربرد تحلیل اکتشافی داده‌های مبتنی بر علم آمار، بر کشف اطلاعات ناشناخته تأکید می‌شود. (برومندزاده و چراغی‌فر، ۱۳۹۵: ۱۱)

برای ورود به بحث کاربرد متن‌کاوی در رفع ابهام[10] و تکمیل منابع تاریخ شفاهی، یک مثال ساده در این زمینه ذکر می‌شود. پس ‌از آن، مفاهیم داده‌کاوی، متن‌کاوی، وب‌کاوی[11] و کلمات کلیدی، تشریح و تکنیک‌های آنها تبیین می‌شوند تا به‌کارگیری این ابزارها در زمان انجام مصاحبه و نیز در هنگام تدوین و ویرایش متن بررسی شود.

فرض کنید دو واژة «ابرکوه» و «رُستنی» را به شما بدهند. استفاده از متن‌کاوی، ترکیبات زیر را از این دو واژه می‌سازد:

در مرحلة اول «شهر، یزد، گیاه و درخت»؛
در مرحلة دوم «شهرِ کهن و درختِ سرو»؛
در مرحلة سوم «سروِ چهار هزار سالة ابرکوه»؛
در مراحل بعدی، مواردی نظیر حجم آب برای آبیاری درخت سرو، انواع رُستنی‌های مناطق گرم و خشک، مشخصات جغرافیایی ابرکوه، بررسی‌های علمی انجام‌شده در این منطقه، وضعیت یزد و ابرکوه در دوره‌های تاریخی و آداب‌ورسوم و فرهنگ این مناطق بررسی می‌شوند. به عبارت روشن‌تر، با کشف اطلاعات نهفته در منابع و دسته‌بندی روابط پیچیده میان داده‌ها، نتایج مهمی به‌دست می‌آیند. همچنین، سازمان‌های مرتبط با این موارد، از نقصان اطلاعاتی در حوزه‌های مرتبط با آن آگاه می‌شوند و به چنین پرسش‌هایی پاسخ می‌دهند:
چه افرادی این موضوع را برای نخستین‌بار در رسانه‌ها مطرح کردند؟
براساس موارد مشابه، لازم است چه اقداماتی در آینده باید برای این درخت انجام شود؟
امکانات طبیعی ابرکوه چه مواردی را شامل می‌شود؟

بنابراین، موارد فوق، بخشی از قابلیت‌های متن‌کاوی را در استخراج دانش و کشف روابط معنایی آشکار می‌سازد.

تافری[12] داده‌کاوی را این‌گونه تعریف می‌کند: «داده‌کاوی یا کشف دانش، استخراج اطلاعات از داده‌ها و استفاده از الگوریتم‌های خاص برای این فرایند است. هدف از کشف دانش در پایگاه داده‌ها، بازیابی الگوهای پنهان و نمایان‌شدن پیوستگی و ارتباط بین داده‌ها است و به‌طور کلی به فرآیند کشف دانش از داده‌ها اشاره می‌کند؛ در حال‌که داده‌کاوی به مرحله‌ای خاص از این فرآیند اشاره دارد». (Tuffery, 2002: 1)

داده‌ها مواردی همچون پایگاه داده‌های ساخت‌یافته[13]، یا یک متن سادة غیرساخت‌یافته[14] را شامل می‌شوند. گازِندم[15] چنین برداشتی از داده‌کاوی دارد: «داده‌کاوی به‌منظور شناخت الگوهای معتبر از داده‌های جمع‌آوری‌شده در مجموعه‌ای از پایگاه داده‌ها به‌کار می‌رود. کشف دانش مراحل تکراری و تعاملی[16] را شامل می‌شود که ممکن است نیاز به تصمیم‌گیری کاربر داشته باشد». (Gazendam, 2010: 49)

متن‌کاوی یکی از مهم‌ترین بخش‌های داده‌کاوی و در مقایسه با آن پیچیده‌تر است. متن‌کاوی کشف و استخراج اطلاعات و دانش نهان، از منابع متنی است. دارونه[17] هدف از متن‌کاوی را چنین بیان کرده است: «هدف از متن‌کاوی، جمع‌آوری اطلاعات غیرساخت‌یافته، استخراج شاخص معنادار عددی از متن و درنتیجه، فهم‌پذیرکردن و دردسترس قرار دادن اطلاعات موجود در متن برای الگوریتم‌های متعدد داده‌کاوی است. رده‌بندی (دسته‌بندی[18] و طبقه‌بندی نیز گفته می‌شود)، خوشه‌بندی[19] و خلاصه‌سازی متون^[20] ازجمله کاربردهای متن‌کاوی است». (Darooneh, 2011: 2)

به عبارت دیگر، متن‌کاوی عبارت است از فرآیند تحلیل متن به‌منظور استخراج اطلاعات از حجم عظیمی از متون غیرساخت‌یافته. متن‌کاوی شامل بازیابی اطلاعات، تحلیل متن، دسته‌بندی و طبقه‌بندی داده‌ها، یادگیری ماشینی و داده‌کاوی است. عده‌ای ازجمله سباستین[21]، داده‌کاوی را مترادفی برای کشف دانش در نظر می‌گیرند و چنین درکی از آن دارند: «داده‌کاوی شامل تمام جنبه‌های فرآیند کشف دانش از پایگاه داده‌ها است و درواقع همان انتخاب روش و الگوریتم‌ برای جست‌وجوی الگو در داده‌ها قلمداد می‌شود». (Sebestian, 1999: 13)

وب‌کاوی پایة پردازش زبان‌های طبیعی را در صفحات وب تشکیل می‌دهد. وب‌کاوی از مکانیزم‌های موجود متن‌کاوی کلاسیک استفاده می‌کند تا روی ساختارهای متنی عمل کند و نیز با مکانیزم‌های هوشمند پردازش، داده‌ها را در وب فراخوانی می‌کند. وب‌کاوی به‌صورت کلی در ترکیب با سایر روش‌های داده‌کاوی استفاده می‌شود؛ به‌طور مثال، وب‌کاوی در فعال‌سازی شخصی‌سازی خودکار بر پایة استفادة وبی به‌کار می‌رود. (حسن‌دوست، ۱۳۹۶: ۲۶)

اصطلاحنامة کتابداری، کلیدواژه‌ها یا کلمات کلیدی را واژه‌هایی تعریف می‌کند که به‌طور خلاصه و دقیق موضوع یا جنبه‌ای از موضوع را که در یک سند از آن بحث به میان آمده است، شرح می‌دهند. هم تک‌واژه‌ها و هم عبارات، کلیدواژه تعریف می‌شوند. (سلطانی و راستین، ۱۳۶۵: ۴۸) پورتر[22] دربارۀ مزایای انتخاب کلمات کلیدی چنین دیدگاهی دارد: «گاه ممکن است مجموعه‌ای از کلمات کلیدی با واژگانِ از پیش تعریف‌شده محدود شده باشند. هدف این است که مجموعه‌ای کوچک از اصطلاحات استخراج شوند که یک سند را توصیف کند. سادگی و سازگاری ازجمله مزایای انتخاب کلیدواژه‌ها مبتنی بر این روش است». (Porter, 1980: 130)

تکنیک‌های متن‌کاوی

همان‌طور که پیش‌تر ذکر شد متن‌کاوی به‌منظور استخراج اطلاعات و دانش از منابع مختلفِ غیرساخت‌یافته استفاده می‌شود. توجه به تکنیک‌های زیر در فرآیند متن‌کاوی ضروری است:

«پیش‌پردازش متن[23]: به پاکسازی اسناد پیش از متن‌کاوی، پیش‌پردازش گفته می‌شود. لازم است داده‌هایمان از وجود عوامل نامناسب،[24] پاک و ویژگی‌های اضافی آن حذف شوند. تیمورپور و نجفی پیش‌پردازش متن را به سه مرحله تقسیم می‌کنند:
- «تقسیم‌بندی[25]: فرآیند جداسازی و شکستن هر کلمه در سند براساس واحدهای با معنا؛
- ضریب تأثیر برای عبارات به تفکیک بخش‌ها؛
- فیلترکردن[26]: فرآیند حذف کلمات غیرمهم؛
- ریشه‌یابی[27]؛
- انتخاب مشخصه؛
- وزن‌دهی به کلمات» (تیمورپور و نجفی، ۱۳۹۴: ۶۵).
پس‌پردازش متن[28]: به معنای پاکسازی، هرس‌کردن، مرتب‌کردن و تکنیک‌های عمومی استفاده‌شده برای ارتقای نتایج به‌دست‌آمده از مراحل پیشین است که عملیات متن‌کاوی هسته‌ای[29] نیز نامیده می‌شود. لوهن[30] متن‌کاوی هسته‌ای را چنین توصیف می‌کند: «متن‌کاوی هسته‌ای شامل کشف الگوها و دانش‌، استخراج اطلاعات احتمالی و قطعی، تحلیل گرایش، شمارش تکرار ترم‌ها، و خوشه‌بندی است. مرور متن‌ها شامل فیلترها، پرسش‌ها و جست‌وجوها در ابزارهای مصورسازی مثل گراف‌ها است. مرور داده‌ها کمک می‌کند با محیط کار داده‌کاوی و پروسه‌های پشت آن ارتباط برقرار کنید». (Luhn, 2008: 160)
برای استفاده از تکنیک‌های متن‌کاوی به‌منظور پردازش متن، باید الگوریتم‌های مناسبی انتخاب و اعمال شوند؛ الگوریتم‌هایی مانند خلاصه‌سازی، دسته‌بندی، خوشه‌بندی و واکاوی معنایی:

۳.۱ خلاصه‌سازی: اگرچه کامپیوترها قادرند افراد، مکان‌ها و زمان‌ها را شناسایی کنند، تجزیه‌وتحلیل معناشناسی همچنان دشوار است. زمانی که متن خلاصه می‌شود، باید با خواندن آن به یک درک کامل از آن برسیم. در نظر گرفتن نکات اصلی در نوشتنِ خلاصه امری ضروری است. به دلیل اینکه رایانه‌ها هنوز قابلیت درک زبان انسان را ندارند، باید روش‌های جایگزینی در پیش گرفت. یکی از این راهبردها، استخراج جمله‌های مهم است. همچنین، یکی دیگر از ابزارهای خلاصه‌سازی به‌منظور شناسایی نقاط کلیدیِ متن، جست‌وجوی عنوان یا سایر نشانه‌های فرعی است. بسیاری از ابزارهای خلاصه‌سازی متن به کاربر اجازة حق انتخاب متن را می‌دهند. افراد با خلاصه‌سازی قادر خواهند بود با سرعت بیشتری اطلاعات و موضوعاتی را که به آن علاقه‌مندند، بررسی کنند. (پارسا، ۱۳۹۳: ۴۷)

شیدایی روش‌های خلاصه‌سازی را ازنظر فضای زبانی،[31] به دو گروه تقسیم می‌کند:

۳.۱.۱. «رویکردهای کم‌عمق[32]: این روش، محدود و منحصر به سطح نحوی[33] است و قطعات برجسته را از متن استخراج می‌کند. در این روش، جمله‌ها و پاراگراف‌های مهم انتخاب می‌شوند و یک نسخة کوتاه‌شده از متن را تشکیل می‌دهند. اهمیت جمله یا پاراگراف براساس ویژگی‌های آماری و گاهاً زبانی تعیین می‌شود.

۳.۱.۲رویکردهای عمیق[34]: این روش شامل سطح معناشناسی[35] و پردازش زبانی[36] است. در این رویکرد مفهوم متن و درک آن با توجه به پردازش زبان‌های طبیعی بیان می‌شود». (شیدایی، ۱۳۹۱: ۳۸).

۳.۲ دسته‌بندی: این روش به‌طور عمده روی مجموعه‌ای از متون اعمال می‌شود و یک روش نظارت‌شده است و بدین‌منظور، از یک مدل آموزشی استفاده می‌شود. هدف اصلیِ این روش، طبقه‌بندی براساس نمونه‌های شناخته‌شده است و پس ‌از آن، موارد ناشناخته به‌صورت خودکار طبقه‌بندی می‌شوند. این فرآیند، موضوع اصلی متن را با اضافه‌کردن داده‌های آموزشی و تجزیه‌وتحلیل محتوا روشن می‌سازد. در این تکنیک، پس از بازنمایی تعداد کلمات، دربارۀ موضوع متن تصمیم‌گیری می‌شود. (خلیلی، ۱۳۹۱: ۳۶)

۳.۳ خوشه‌بندی: از این تکنیک برای تقسیم‌بندی متون مشابه استفاده می‌شود و متفاوت از دسته‌بندی است. در این روش، الگوهای ورودی و خروجی از پیش تعریف نشده‌اند. در خوشه‌بندی هیچ برچسب و کلاس از پیش تعریف ‌شده‌ای وجود ندارد و به جای آن از مقدار شباهت بین موضوعات مختلف استفاده می‌شود. اسنادی که مشابه‌اند، در یک کلاس و مواردی که مشابه نیستند، در کلاس‌های متفاوت قرار می‌گیرند؛ بنابراین، هر خوشه شامل تعدادی متن است و موارد مشابه در یک خوشه قرار می‌گیرند. (قهرمانی، ۱۳۹۶: ۵۳)

۳.۴ واکاوی معنایی: یکی از بخش‌های رایج در واکاوی اطلاعات، استخراج روابط معنایی[37] میان عبارات موجود در متن است. روابط معنایی به رابطة موجود بین دو مفهوم بیان‌شده از یک کلمه یا عبارت اطلاق می‌شود. این روابط نقش بسیار اساسی در معناشناسی واژگان دارند. روابط معنایی متنوعی در حیطة زبان‌های طبیعی تعریف‌پذیر است که رابطة عام[38] - خاص[39]، کل[40] - جز‌ء[41]، تضاد[42] و ترادف[43] معنایی از رایج‌ترین این روابط است. (خلیلی، ۱۳۹۱: ۳۴)

خاصه، کاربرد استخراج روابط معنایی‌ در ایجاد پردازش‌های ماشینی روی متون را به‌صورت زیر شرح داده است:

۴.۳.۱ «خلاصه‌سازی متون: کشف شباهت بین متون؛

۴.۳.۲ پاسخگویی خودکار به سؤالات[44]: توسعة خودکار شبکة واژگانی؛

۴.۳.۳. استخراج اطلاعات از متون: تجزیه‌وتحلیل داده‌ها». (خاصه، ۱۳۸۹: ۸)

شایان ذکر است برای کشف شباهت میان متون، فرض بر این است که اگر در یک متن به جای یک کلمه، کلمات با رابطة عام - خاص یا مترادف قرار داده شوند، معنای آن جمله تغییر نمی‌کند. از این فرض بدین‌صورت استفاده می‌شود که برای محاسبة‌ میزان شباهت بین دو متن، کلمات یکی از متن‌ها با کلماتی که رابطة‌ عام - خاص یا مترادف با آن کلمه دارند، جابه‌جا می‌شوند. سپس تعداد کلمات مشابه دو متن شمرده می‌شوند و اگر از یک تعداد مشخص بیشتر شود، آن دو متن مشابه در نظر گرفته می‌شوند.

کلارک[45] کشف شباهت میان متون براساس روابط معنایی را چنین توضیح داده است: «ابتدا کلمات کلیدی موجود در عبارت سؤال، استخراج و پس ‌از آن کلماتی که با آن رابطة معنایی دارند، جست‌وجو می‌شوند؛ درنتیجه، پس از کشف کلیة اطلاعات دربارة آن موضوع، با توجه به سؤال مطرح‌شده، پاسخ مناسب داده می‌شود. همچنین، اساس شبکة واژگانی[46] بر ترادف‌ها و روابط معنایی میان کلمات حوزه‌ای است که این شبکه برای آن ساخته شده است. ایجاد و توسعة خودکار شبکة واژگانی به شدت به استخراج روابط معنایی وابسته است. این امر با توجه به این فرض انجام می‌گیرد که کلماتی که رابطة عام - خاص یا مترادف دارند، ویژگی‌های مشابهی نیز دارند؛ درنتیجه، با دانستن ویژگی‌های یک کلمه، ویژگی‌های کلماتی که با آن، رابطة معنایی خاص دارند، آشکار می‌شود. روابط معنایی استخراج‌شده، زیربنای بسیاری از سیستم‌های تولید و نمایش دانش الکترونیکی مانند انواع آنتولوژی‌ها[47]، سیستم‌های رده‌بندی[48] و سیستم‌های خبره[49] را تشکیل می‌دهد». (Clark, 2013: 65)

فِلدمن[50]، تلاش‌های انجام‌شده درزمینة استخراج روابط معنایی را به چهار دستة کلی تقسیم می‌کند:

«براساس پردازش‌هایی که در حوزة روش‌های مبتنی بر الگو انجام می‌شود، معمولاً با توجه به الگوهای لغوی - نحوی موجود در متن، کلماتی که در قالب این الگو قرار می‌گیرند، به‌عنوان رابطة معنایی استخراج می‌شوند. یکی از مزایای مهم روش‌های بر پایة الگو نسبت به سایر روش‌ها این است که روابط معنای به‌دست‌آمده از این روش‌ها روابطی با نام بوده‌اند و احتیاج به کارِ دستی برای تشخیص نوع رابطه نیست.
روش‌هایی که اساس آنها بر تجزیه‌کردن متن ورودی و تبدیل آن به درخت تجزیه است. کارایی این روش به تجزیه‌گری[51] بستگی دارد که از آن استفاده می‌شود. اگر تجزیه‌گر استفاده‌شده مناسب باشد، درخت تجزیة به‌دست‌آمده، مناسب خواهد بود و نتایج بهتری به‌دست می‌آید؛ در غیر این صورت، نمی‌توان به نتایج این روش‌ها اعتماد کرد.
روش‌های آماری که روابط معنایی را براساس تعداد کلمات و نحوة‌ قرارگرفتن آنها در کنار هم استخراج می‌کنند. این روش‌ها معمولاً رابطه‌های بی‌نامی را کشف می‌کنند و به کارِ دستی برای تشخیص نوع رابطة معنایی نیاز دارند. مزیت این روش‌ها در این است که مستقل از زبان‌اند و به یک یا چند زبان خاص محدود نمی‌شوند.
روش‌های بر پایة منبع که از یک منبع خاص برای استخراج روابط معنایی استفاده می‌کنند. برای بهره‌مندی از این روش، به فرهنگ لغت مراجعه می‌شود». (Feldman, 2007: 38)

تاریخ شفاهی

تاریخ شفاهی به‌عنوان یکی از روش‌های نوین گردآوری اطلاعات، راهی پُرفرازونشیب را برای تثبیت جایگاه خود به‌منزلة یک ابزار تحقیقی برای مطالعات تاریخی طی کرده است. این روش پژوهشی ویژگی روایی دارد و رویدادها را براساس گفته‌های ناظران دوره‌های تاریخی بازگو می‌کند. تاریخ شفاهی فرآیندی دوسویه یا حتی چندسویه است که در چارچوب مشخصی انجام می‌گیرد. (کوینلن و دبلیوسامر، ۱۳۹۲: ۱۸)

علاوه‌بر این، باید گفت تاریخ شفاهی یک روش پژوهش تاریخی برای جمع‌آوری و نگه‌داری اطلاعات از حافظة‌ افراد سهیم در رخدادهای تاریخی یا شاهدان عینی آنها در هر طبقة اجتماعی است. تاریخ شفاهی سندی از جنس صوت و تصویر است. این روش پژوهشی در جست‌وجوی اطلاعات مستند شفاهی و در پی ثبت هر گونه تجربة انسانی است که به مرور زمان و در پی بروز تغییرات سیاسی، اجتماعی و فرهنگی در خطر نابودی قرار دارد. تاریخ شفاهی به بازآفرینی تاریخ کمک می‌کند و مورخ را به صحنة رخدادهای واقعی وارد می‌کند و این امکان را به او می‌بخشد که با یاری‌گرفتن از حافظة افراد،‌ تاریخ را بازآفریند. (نیک‌نفس، ۱۳۹۲: ۶)

انجام مصاحبه، اصلی‌ترین فعالیت در تاریخ شفاهی است که در عین سادگی، دارای پیچیدگی و ظرافت‌های بسیاری است. مصاحبة تاریخ شفاهی معمولاً از دو شرکت‌کننده تشکیل می‌شود: مصاحبه‌کننده که در جایگاه مورخ قرار دارد و باید با روش پژوهش تاریخی آشنایی داشته باشد. مصاحبه‌شوندۀ تاریخ شفاهی هم کسی است که در زمانة خود منشاء اثری یا دارای مشاهده و تجربه‌ای خاص باشد. در طرح‌های تاریخ شفاهی، مصاحبه‌شونده، منبع دست‌ اول در مطالعات تاریخی محسوب می‌شود؛ زیرا او فعال در رویداد یا شاهد عینی رویدادی تاریخی یا مقطعی از تاریخ بوده است. (صالحی، ۱۳۹۹: ۳۱)

بنابراین، تعامل سازنده بین مصاحبه‌گر و راوی، در کیفیت مصاحبه تأثیر می‌گذارد و بخشی از فرآیند تاریخ شفاهی محسوب می‌شود. برخلاف یادداشت‌های شخصی که فرد به میل خویش ثبت می‌کند، در مصاحبة‌ تاریخ شفاهی، راوی با همکاری یک مصاحبه‌گر آماده و مطلع، به تبادل اطلاعات درزمینة موضوع مصاحبه می‌پردازد که درنهایت، به درک تازه‌ای از آن منتهی می‌شود. مصاحبه‌گر ضمن هدایت بحث و با طرح سؤالات به‌جا و متقضی، از ابهام مطالبی که راوی با الفاظ و عبارات خود بیان کرده است، می‌کاهد. کوینلن و دبلیوسامر، تمایز تاریخ شفاهی با گونه‌های مشابه آن را چنین تفسیر کرده‌اند: «تاریخ شفاهی بیانات برگرفته از دانش راوی نیست؛ بلکه مدرکی است که ساختار سؤالات پرسیده‌شده و پاسخ‌های آن را منعکس می‌کند؛ به همین دلیل، مستندکردن تمام مراحل تولید و پردازش مصاحبه، اهمیت ممتازی دارد تا به درک آیندگان از وضعیت انجام این ارتباط کمک کند». (کوینلن و دبلیوسامر، ۱۳۹۲: ۲۴)

مراحل فرآیند تاریخ شفاهی به‌طور خلاصه شامل این موارد است: انتخاب موضوع (زندگی یک شخصیت یا واقعة‌ تاریخی یا موضوعی خاص یا ...)، تهیة طرح مصاحبه، پژوهش، تهیة سؤال، مستندسازی و راستی‌آزمایی در مرحلة اول، ثبت سند مصاحبه (صوت، تصویر و ...)، تهیة نسخه‌های پشتیبان، پیاده‌سازی و ویرایش اولیه، تهیة فهرست توصیفی و تحلیلی، تدوین و ویرایش، فصل‌بندی، تعیین چارچوب، مستندسازی و گویاسازی در مرحلة دوم، کنترل ارجاعات درون‌متنی، و آماده‌سازی پیوست‌ها.

مستندسازی تاریخ شفاهی با بهره‌مندی از متن‌کاوی

تاریخ شفاهی در دوران رشد و گسترش در قرن بیستم مراحل مختلفی را گذرانده است؛ البته در بیشتر موارد مراحل قبلی نیز به‌طور موازی با مرحلة‌ جدید به‌کار گرفته می‌شوند. دکتر مرتضی نورائی این مراحل را به شرح زیر برشمرده است:

«در قرن بیستم که به اختراع ضبط‌صوت، با قابلیت حمل و دسترسی به شنیده‌ها منجر شد، ارجاع به مستندات آزمایش‌پذیر صورت پذیرفت؛
نیمة دوم قرن بیستم بر بازآفرینی و بازیابی و بازانگاری وقایع متمرکز بود؛
در دو دهة آخر قرن بیستم، سازوکار مرحلة تحلیل و تفسیر وقایع در مدار ضبط تاریخ شفاهی‌نگاران قرار گرفت؛
در حال حاضر، دقت بر «حولی‌ات یا پیرامونیات» قرار دارد. درواقع مسائل حول و حوش وقایع در مرکز توجه مورخان تاریخ شفاهی جای گرفته است». (نورائی، ۱۳۹۹: ۴)

درزمینة مستندسازی، راستی‌آزمایی و گویاسازی مصاحبه‌‌های تاریخ شفاهی باید به این نکته توجه داشت که مستندسازی در دو مرحله صورت می‌پذیرد:

زمان انجام مصاحبه: مستندسازی در این مرحله، به مراتب مهم‌تر از انجام آن در زمان تدوین است؛ به دلیل اینکه ممکن است مصاحبه به مرحلة‌ تدوین نرسد؛ البته در صورتی که مصاحبه به مرحلة‌ تدوین برسد، باز این امکان وجود دارد که مصاحبه‌شونده در قید حیات نباشد تا بتوان به‌درستی به رفع ابهام‌ها و تکمیل مصاحبه اقدام کرد و به‌ناچار باید از منابع جنبی بهره برد.

مصاحبه‌گرانی که به موضوع مصاحبه و مسائل آن تسلط دارند، با طرح سؤالات تکمیلی، از مصاحبه‌شونده درخواست می‌کنند تا موارد گنگ بیان‌شده در مصاحبه را روشن‌تر بازگو کنند،؛ به‌ویژه هنگامی‌ که این اطلاعات در منابع مکتوب موجود نباشد و هدف از انجام مصاحبه، تولید منبعی جدید باشد. یک مصاحبه‌گر حرفه‌ای پس از پایان هر جلسه، فهرست مواردی را که به تکمیل و مستندسازی نیاز دارند، تهیه می‌کند و در جلسات بعدی به‌طور دقیق بررسی می‌کند. درضمن می‌تواند به روایت‌های سایرین در باب موضوعاتی که مصاحبه‌شونده براساس دیدگاه شخصی‌اش بیان کرده است، به دیدة نقد بنگرد و دیدگاه آنان را در طرح سؤالات مدِنظر قرار دهد.

علاوه ‌بر این، مصاحبه‌کننده باید با زیرکی، بر انگیزه‌های آشکار و پنهان راوی متمرکز شود؛ زیرا در اموری که راوی نقش خود را منفی ارزیابی می‌کند یا آنکه قصد دارد در نقش خود بزرگ‌نمایی کند، ممکن است حقایق و واقعیت‌ها را به گونه‌ای دیگر بیان کند. در چنین مواردی است که مصاحبه‌گر با توجه به اهداف راوی از ذکر این موضوعات، با بیان اسناد معتبرِ مغایر با محتوا، به‌صورت کاملاً محترمانه، نسبت به صحت مطالب تشکیک وارد می‌کند.

بر این نکته تأکید می‌شود که پژوهشگران تاریخ شفاهی باید به بررسی داده‌های تاریخی در زمان انجام مصاحبه توجهی ویژه‌ داشته باشند؛ زیرا با گذشت زمان، احتمال جابه‌جایی بسیاری از موارد در ذهن راوی وجود دارد و ممکن است او خودآگاه یا ناخودآگاه، بخش‌هایی از وقایع را کم یا زیاد کند. در تعیین اعتبار مطالب بیان‌شده، هرچند بنا بر صداقت راوی گذاشته می‌شود، از وظایف پژوهشگر است که به‌صورت منطقی، با روش گویاسازی و راستی‌آزمایی، اعتبار محتوای مصاحبه را کنکاش کند. (صالحی و تجلی، ۱۳۹۸: ۳۲)

زمان تدوین متن مصاحبه: مستندسازی در این مرحله، فرآیندی است که طی آن تدوینگر برای فهمیدنی‌تر و گویاتر کردن متن، با استفاده از منابع معتبر، دربارة اشخاص، مکان‌ها، اصطلاحات، رویدادها، کتاب‌ها، مقاله‌ها، طرح‌های پژوهشی، وقایع تاریخی و ... ذکرشده در مصاحبه، توضیحات بجا، مناسب، مختصر و مفیدی در پانوشت صفحات یا پی‌نوشت‌های انتهای فصول‌ درج می‌کند. حجم پانوشت‌ها یا پی‌نوشت‌ها هم به تناسب و به ضرورت و نیاز، کم و زیاد می‌شود.

لازم است تدوینگر در این مرحله با مصاحبه‌شونده - در صورت در قید حیات بودن او - تعامل سازنده‌ای داشته باشد و موارد مبهم را با او در میان بگذارد. همچنین، باید به موضوعاتی توجه کند که به توضیحات شفاف‌تر و مبسوط‌تری نیاز دارند. گویاسازی متن نشان می‌دهد تدوینگر بر موضوع تسلط دارد و برای مستندسازی و تبدیل مصاحبه به یک اثر پژوهشی تلاش کرده است. ناگفته نماند در این زمینه، سیاست سازمان مجری طرح تاریخ شفاهی نیز تعیین‌کننده است؛ با این حال، توصیه می‌شود جانب اعتدال حفظ شود و در این امر زیاده‌روی نشود. مستندسازی‌های مناسب در این مرحله، چهره‌ای نکته‌سنج از تدوینگر ارائه می‌کند. (مرادی‌نیا، ۱۳۹۷: ۱۳)

شماری از اهداف تدوینگر در مستندسازی و راستی‌آزمایی مصاحبه‌های تاریخ شفاهی به شرح زیرند:

رفع ابهام و معرفی اماکن، اشخاص، رویدادها، مفاهیم و به‌طور کلی هر واژه و مطلبی که به نظر او مبهم است؛
توضیح بیشتر دربارة آنچه مصاحبه‌شونده در مصاحبه بیان کرده است؛
تکمیل مطالبی که راوی، آنها را درست و کامل توضیح نداده است؛
توضیح دربارۀ برخی واژه‌ها که راوی، درک آنها را از سوی خودش بدیهی می‌دانسته، ولی به نظر تدوینگر برای مخاطبان آن گنگ است؛
شرح، تفسیر و تحقیق دربارۀ برخی از مطالب متن؛
رفع اشکالات محتوایی متن. (عبدالله‌زاده، ۱۳۹۵)

علاو‌ه‌بر درج ضرورت مستندسازی مصاحبه‌ها در زمان انجام مصاحبه و نیز هنگام تدوین متن، باید به این موضوع توجه داشت که ممکن است محتوای برآمده از مصاحبه‌های تاریخ شفاهی در همة جنبه‌های آن، بدون انطباق با واقعیت درک‌شده و دوری از حقیقت (آنتولوژی) گذشته، اقدامی آگاهی‌بخش نبوده باشد و موجب گردآوری داده‌های تاریخی نشود. آنچه از تاریخ انتظار می‌رود مستندسازی گذشته است؛ آنچنان ‌که بوده یا دست‌کم آنچنان که درک شده است. هر قدر تاریخ شفاهی مستند‌شده بر واقعیت درک‌شده منطبق شود، پروژة گردآوری اطلاعات از روزن تاریخ شفاهی، اعتبار بیشتری پیدا می‌کند؛ همان‌طور که هر قدر واقعیت درک‌شده بر حقیقت منطبق شود، تاریخ‌نگاری ملموسی را براساس این روش پژوهشی در اختیار آیندگان قرار می‌دهد (نمودار ۱).

نمودار ۱: فضای مفهومی اعتبار منابع تاریخ شفاهی

فرآیند رفع ابهام از روزن متن‌کاوی

در سال‌های اخیر انجام مصاحبه‌های تاریخ شفاهی، بیشتر به‌منظور تولید داده‌های جدید و منحصربه‌فرد، معمولاً براساس دو روش زیر انجام می‌پذیرد (نمودار ۲):

گردآوری و مکتوب‌سازی: در این روش، روایت، آنچنان‌ که راوی به آن تمایل دارد، ثبت‌وضبط می‌شود. در این حالت ممکن است نقش مصاحبه‌گر به حداقل برسد و به یادآوری موارد دلخواه مصاحبه‌شونده بسنده شود؛ بدین صورت، مصاحبه به اهداف از پیش‌ تعیین‌شده نمی‌رسد.
مستندسازی و راستی‌آزمایی: راهکار علمی برای درک حقیقت (آنتولوژی) گذشته، اجرای طرح‌های شخص‌محور یا موضوع‌محور تاریخ شفاهی، مشروط بر این است که مستندسازی و راستی‌آزمایی جوهر غالب این مصاحبه‌ها باشد. لازم است در وهلة نخست، به مستندسازی و سپس به راستی‌آزمایی توجه شود. مصاحبه‌کننده باید سؤالاتی را براساس مطالب مندرج در کتاب‌ها یا گفته‌ها و مصاحبه‌های سایرین، طرح یا در گفته‌های مصاحبه‌شونده براساس سایر منابع تشکیک وارد کند. در این صورت ممکن است داده‌های گردآوری‌شده، از محتوای دلخواه مصاحبه‌شونده دور شوند؛ ولی به تاریخ‌نگاری شفاهی مبتنی بر مستندات تاریخی نزدیک‌تر می‌شود.

نمودار 2: ماهیت طرح‌های تاریخ شفاهی

بنابراین، زمانی‌که ماهیت مصاحبه بر مستندسازی و راستی‌آزمایی در زمان انجام مصاحبه استوار باشد، فرآیند تاریخ شفاهی به سه مرحله یا گام (نمودار ۴) تقسیم می‌شود:

مصاحبه‌شونده روایت را آن‌طور بیان کند که به آن علاقه‌مند است. ممکن است این گام چند جلسه از مصاحبه یا کل جلسات مصاحبه را به خود اختصاص دهد.
تحویل مستندات گام اول به مصاحبه‌شونده و تکمیل پنج جدول به شرح زیر:

جدول ۱: فهرست محدودة زمانی براساس اشخاص، رویدادها و مکان‌ها؛

جدول ۲: فهرست مکان‌ها براساس محدودة زمانی، اشخاص و رویدادها؛

جدول ۳: فهرست اشخاص براساس محدودة زمانی، مکان‌ها و رویدادها؛

جدول ۴: فهرست رویدادها براساس محدودة زمانی، مکان‌ها و اشخاص؛

جدول ۵: فهرست اسناد مکتوب مرتبط با محدودة زمانی، مکان‌ها، اشخاص و رویدادها.

پس از تکمیل اطلاعات جدول‌های مذکور، با بهره‌مندی از روش‌های متن‌کاوی که در سطور بالا شرح داده شد، اطلاعات مرتبط با کلمات کلیدی، از فهرست‌ها استخراج ‌می‌شوند. سپس با تجزیه‌وتحلیل موارد فوق، ماتریس ارتباطات بین ابعاد مختلف موضوع اعم از مکان‌ها، محدودة زمانی، اشخاص، رویدادها و اسناد مکتوب تدوین می‌شود. باید تمام اجزای این ماتریس چندبعدی با هم روابط مشخص و بدون ابهامی را نمایش دهند.

فهرست ابهام‌ها براساس انواع روابط ممکن بین مفاهیم (نمودار ۳)، زمینة طرح پرسش‌هایی را فراهم می‌آورد که لازم است از مصاحبه‌شونده پرسیده شود. متن‌‌کاوی ما را قادر می‌سازد تا ضمن تشخیص روابط پنهان بین مفاهیم، مستندات اکتشافی را با پاسخ‌های مصاحبه‌شونده، مقایسه و نتایج را به‌صورت تحلیلی، ثبت و نگه‌داری کنیم. همچنین، باید تضادها، اختلاف‌ها، مشابهت‌ها و هم‌جهتی‌ها را در مقایسه با مطالب برگرفته از مصاحبه با سایر اشخاص، روزآمد ‌کنیم.

نمودار ۳: انواع روابط ممکن بین مفاهیم

تحویل مستندات گام دوم به مصاحبه‌شونده و تکرار اقدامات انجام‌شده در گام دوم، براساس نتایج حاصله و انجام مصاحبه‌های تکمیلی.

درخور ذکر است احتمالاً این سه مرحله بر حسب نیاز (نمودار۴) بارها تکرار می‌شوند؛ تا جایی که مقدور است نسبت به رفع ابهام‌ها و تکمیل مصاحبه اقدامات لازم معمول شود. درضمن اگر به مستندسازی در زمان انجام مصاحبه توجه نشود، تدوینگر می‌تواند با تکمیل همین جدول‌ها از مصاحبه‌شونده کمک بخواهد و نیز براساس سایر منابع برای رفع ابهام‌ و تکمیل محتوا اقدام کند؛ بنابراین، تمرکز توأمان بر همة‌ این موارد موجب مستندسازی و تکمیل مصاحبه در حین انجام مصاحبه و در صورت نیاز، در زمان تدوین متن می‌شود. ازجمله اقدامات در این زمینه، موارد زیر ذکر می‌شوند:

تهیة‌ پانوشت‌ها یا پی‌نوشت‌ها و توضیحات و شواهد برای تبیین شباهت‌ها و تفاوت‌ها؛
کنترل نهایی متن مصاحبه و پیوست‌های تکمیلی؛
درج فهرست ابهام‌هایی که بی‌پاسخ مانده و لازم است به‌عنوان بخش مهمی از فرآیند تاریخ شفاهی در آینده به آن پاسخ داده شود.

نمودار ۴: چرخة‌ پیشنهادی تاریخ شفاهی با رویکرد مستندسازی و راستی‌آزمایی

مصاحبه‌های تاریخ شفاهی پس از گذر از این مراحل کیفی، به منبعی با قابلیت استناد تبدیل می‌شوند. شایسته‌ است به فرآیند مستندسازی در زمان انجام مصاحبه توجه شود و ابهام‌ها از راوی، پرسیده یا گفته‌های او به بوتة نقد گذاشته شوند؛ چون تمام مصاحبه‌ها با هدف تدوین و انتشار انجام نمی‌شوند؛ بلکه بسیاری از آنها به‌ویژه در آرشیوها و کتابخانه‌ها، تنها برای اطلاع‌رسانی و استفادة پژوهشگران ثبت‌وضبط می‌شوند؛ البته اگر به این موضوع در زمان انجام مصاحبه توجه نشود، باید تدوینگر مدنظر قرار دهد.

مطالعة موردی: واقعة‌ هفتم تیر ۱۳۶۰

پس از بررسی روش‌های کشف دانش، تکنیک‌های متن‌کاوی و کاربرد آن به‌منظور مستندسازی و تکمیل مصاحبه‌های تاریخ شفاهی، موضوع «واقعة‌ هفتم تیر ۱۳۶۰»، به‌عنوان مطالعة‌ موردی بررسی می‌شود. در ارتباط با این موضوع، کتاب‌ها و مقاله‌های متعددی به رشتة تحریر درآمده‌اند؛ از آن جمله: تاریخ شفاهی شهدای هفتم تیر ۱۳۶۰[52]، روایت انقلاب و انفجار[53]، بهشتی با ۷۲ بال پرواز کرد[54]، و پرنده‌ای که تبعید شد[55].

گفتنی است با مطالعة مجموعه آثار مرتبط با موضوع مذکور و بهره‌مندی از ابزار متن‌کاوی در استخراج رویدادها، افراد، مکان‌ها و ... اطلاعاتی استخراج می‌شوند که به کشف روابط میان داده‌ها منجر می‌شود. روابط مکشوفة مبتنی بر فناوری‌های نوین موجب آشکارشدن ابهام‌هایی از این واقعه می‌شود که تا کنون پاسخ دقیق و روشنی به آن داده نشده است. ازجملة این ابهام‌ها، ارتباط محمدجواد قدیری با واقعة هفتم تیر و دلایل شرکت‌نکردن بعضی از اعضای حزب جمهوری در آن جلسه هستند.

بنابراین، همان‌طور که مشاهده می‌شود اگر از ابزار متن‌کاوی در زمان انجام مصاحبه و در صورت نیاز در زمان تدوین متن، استفاده و کلیدواژه‌ها و موضوعات فرعی به‌‌دست‌آمده تجزیه‌وتحلیل شوند، موجبات دقت و سهولت در مستندسازی و جامعیت اطلاعات گردآوری‌شده را فراهم می‌آورد. در ادامه، برخی از کلمات کلیدیِ استخراج‌شده مربوط به رویدادها، مکان‌ها و افراد مرتبط با واقعة هفتم تیر ۱۳۶۰ (جدول ۱) درج می‌شوند. در ضمن تعدادی از ابهام‌های مکشوفه در ارتباط با این موضوع (جدول ۲) نیز ذکر می‌شود.

جدول ۱: برخی از کلمات کلیدی استخراج‌شدۀ مرتبط با واقعة هفتم تیر ۱۳۶۰

رویدادها (به ترتیب زمان) پیش، در حین و پس از واقعه	مکان‌ها	افراد (حقیقی و حقوقی)
عزل ابوالحسن بنی‌صدر	ساختمان حزب جمهوری اسلامی	شهدا: سید محمد حسینی بهشتی، رحمان استکی، سید رضا پاک‌نژاد، عباس حیدری، غلامحسین حقانی و ۶۸ شهید دیگر
تشکیل شورای موقت ریاست‌جمهوری	خیابان سرچشمه	جانبازان: علی‌اصغر باغانی، ایرج صفاتی دزفولی، مرتضی محمودی، مرتضی فضلعلی و ۲۴ جانباز دیگر
واقعة مسجد ابوذر	خیابان شهید مصطفی خمینی	محمدرضا کلاهی
رأی‌گیری تغییرِ دستور جلسه	خیابان صیرفی‌پور	محمدجواد قدیری
بررسی ویژگی‌های رئیس‌جمهور	بیمارستان انقلاب	ساختار سازمانی حزب جمهوری اسلامی
سخنرانی آیت‌الله بهشتی	درمانگاه شهید شوریده	اعضای غایب حزب جمهوری اسلامی
سازمان مجاهدین خلق	بیمارستان طرفه	سپاه پاسداران انقلاب اسلامی
جلسات دفتر نخست‌وزیری	سازمان تبلیغات اسلامی	ابوالحسن بنی‌صدر
جلسات دفتر هماهنگی‌های رئیس‌‌جمهور	مسجد شهید مطهری	مسعود رجوی
ربودن مجروحان از بیمارستان‌ها	قطعه ۲۴ بهشت زهرا	امام خمینی (قدس سره)
اولین جلسة‌ مجلس شورای اسلامی	آرامگاه شهدای هفتم تیر	آیت‌الله سید علی خامنه‌ای
انفجار دفتر نخست‌وزیری	موزه یادگار شهدای هفتم تیر	حجت‌الاسلام اکبر هاشمی رفسنجانی
انتخابات ریاست‌جمهوری	یادمان شهدای هفتم تیر	آیت‌الله حسین‌علی منتظری
شهادت امامان جمعه	بنیاد شهدای هفتم تیر	آیت‌‌الله سید عبدالکریم موسوی اردبیلی
و ...

جدول ۲: تعدادی از ابهام‌های مکشوفۀ مرتبط با واقعة هفتم تیر ۱۳۶۰

ردیف	ابهام
۱	ارتباط محمدجواد قدیری با واقعة هفتم تیر
۲	دلایل شرکت‌نکردن بعضی از اعضای حزب جمهوری در آن جلسه
۳	دلایل نپذیرفتن مسئولیت حادثه توسط سازمان مجاهدین خلق
۴	نقش کشورهای خارجی در این واقعه
۵	چگونگی نفوذ در سازمان‌های امنیتی کشور
۶	نحوة ورود عاملان نفوذی در حزب جمهوری اسلامی
۷	نقش کشورهای خارجی در این واقعه
۸	نحوة دسترسی بمب‌گذار به بمب‌ها
و ...

نتیجه

با توجه به مطالب درج‌شده درزمینة‌ کاربرد ابزار متن‌کاوی و ذکر مطالعه‌ای موردی به‌منظور مستندسازی و تکمیل مصاحبه‌های تاریخ شفاهی در زمان انجام مصاحبه و در صورت نیاز در زمان تدوین متن، نتایج زیر استنباط شدند:

به دلیل گسترش اجرای طرح‌های تاریخ شفاهی، در بسیاری از موارد، بی‌توجهی به مستندسازی، راستی‌آزمایی و گویاسازی محتوای برآمده از این روش پژوهشی، این منابع را فاقد قابلیت استنادی کرده است. به دلیل اینکه این نقصان از زمان انجام مصاحبه پیش می‌آید و در صورت بی‌توجهی به آن تا هنگام تدوین ادامه پیدا می‌کند، لازم است با بهره‌مندی از روش‌های کارآمد، نسبت به رفع آن اقدام کرد.
متن‌کاوی یکی از ابزارهای علمی و کاربردی برای تکمیل منابع تاریخ شفاهی است. استخراج روابط معنایی، بدین‌ صورت که موضوع در مرکز قرار گیرد و مؤلفه‌های زمان، مکان، رویدادها و ... در حول آن به دقت تجزیه‌وتحلیل شوند، موجب به دست آمدن تاریخ‌نگاری شفاهی بر پایة مستندات می‌شود. تلاش به‌منظور مستندسازی و راستی‌آزمایی از سوی مصاحبه‌گر یا تدوینگر، هم موجب طرح پرسش‌های مجدد از مصاحبه‌شونده می‌شود و هم در حین تدوین، به انتشار متنی قابلِ استناد کمک شایان توجهی می‌کند. موارد زیر، ازجمله مزایا و ارزش‌آفرینی‌های این رویکرد فناورانه‌اند:
سرعت و سهولت در به‌کارگیری؛
جامعیت در کشف روابط معنایی؛
دقت در تجزیه‌وتحلیل موضوعات؛
ایجاد بانک‌های اطلاعاتی با موضوعات مختلف؛
رفع ابهام از محتوا و تکمیل فرآیند تاریخ شفاهی.

[1]. Text Mining.

[2]. Knowledge- Disvovery in Text (KDT).

[3]. Natural Language Processing.

[4]. Mehmed Kantardzic.

[5]. Charo C Aggarwal & Chengxiang Zhai.

[6]. Thomas Erl & Paul Buhler.

[7]. Sholom M Weiss & Tong Zhang.

[8]. Domenico Talia & Paolo Trunfio.

[9]. Data Mining.

[10]. Disambiguation.

[11]. Web Mining.

[12]. Tuffery.

[13]. Structured.

[14]. Unstructured.

[15]. Gazendam.

[16]. Interative.

[17]. Darooneh.

[18]. Classification.

[19]. Clustering.

[20]. Text Summarization.

[21]. Sebestian.

[22]. Porter.

[23]. Preprocessing.

[24]. Noise.

[25]. Classification.

[26]. Filtering.

[27]. Rooting.

[28]. Postprocessing.

[29]. Core text mining operation.

[30]. Luhn.

[31]. Linguistic space.

[32]. Shallow approaches.

[33]. Syntactic.

[34]. Deeper approaches.

[35]. Semantic level.

[36]. Linguistic Processing.

[37]. Semantic relations.

[38]. Hypernym.

[39]. Hyponym.

[40]. Holonym.

[41]. Meronym.

[42]. Antonym.

[43]. Synonym.

[44]. Question Asnwering.

[45]. Clark.

[46]. Word net.

[47] . هستی‌شناسی

[48]. Taxonomy.

[49]. Expert systems.

[50]. Feldman.

[51]. Parser.

[52]. صادقی،‌ زهرا. (۱۳۹۵). تاریخ شفاهی شهدای هفتم تیر ۱۳۶۰. تهران: مرکز اسناد انقلاب اسلامی.

[53]. فضلعلی، مرتضی. (۱۳۹۸). روایت انقلاب و انفجار، مصاحبه با مرتضی فضلعلی. مصاحبه محمدحسین یزدانی‌راد، تدوین و پژوهش پیمانه صالحی. تهران: روزنه.

[54]. بهشتی با ۷۲ بال پرواز کرد. (۱۳۶۳). تهران: ستاد برگزاری مراسم هفتم تیر.

[55]. والایی، علی‌اکبر. (۱۳۸۵). پرنده‌ای که تبعید شد: زندگینامة‌ شهید علی‌اکبر سلیمی جهرمی. تهران: شاهد.

مراجع

برومندزاده، مصطفی؛ چراغی‌فر، سعید (۱۳۹۵). بررسی روش‌های متن‌کاوی. مشهد: مینوفر.
پارسا، سودابه (۱۳۹۳). توسعه و بهبود روش‌های متن‌کاوی در کاربردهای فارسی. پایان‌نامة کارشناسی‌ارشد، دانشگاه شهید باهنر کرمان.
تیمورپور، بابک؛ نجفی، حیدر (۱۳۹۴). داده‌کاوی با R به همراه متن‌کاوی و تحلیل شبکه‌های اجتماعی. تهران: مرکز تحقیقات و توسعه سازمان اتکا.
حسن‌دوست، صالح (۱۳۹۶). خلاصه‌سازی متون با کاربست روش‌های متن‌کاوی. پایان‌نامة کارشناسی‌ارشد، دانشگاه دیلمان لاهیجان.
خاصه، علی‌اکبر (۱۳۸۹). داده‌کاوی، متن‌کاوی و وب‌کاوی: تعاریف و کاربردها. ماهنامة ارتباط علمی، ۱۶ (۲): ۸.
خلیلی، مهدی (۱۳۹۱). استخراج روابط معنایی بین کلمات فارسی با استفاده از داده‌کاوی متن‌ها. پایان‌نامة کارشناسی‌ارشد، دانشگاه بوعلی سینا، دانشکدة فنی و مهندسی.
سلطانی، پوری؛ راستین، فروردین (۱۳۶۵). اصطلاحنامة‌ کتابداری. تهران: کتابخانة ملی ایران.
شیدایی، نوید (۱۳۹۱). متن‌کاوی متون فارسی در راستای پیش‌پردازش و دسته‌بندی مقالات خبری فارسی. پایان‌نامة کارشناسی‌ارشد، دانشگاه صنعتی اصفهان.
صالحی، پیمانه (۱۳۹۹). مسائل حقوقی مصاحبه‌های تاریخ شفاهی. تهران: سازمان اسناد و کتابخانة‌ ملی ایران.
صالحی، پیمانه؛ تجلی، آرزو (۱۳۹۸). دستنامة ویرایش و تدوین آثار تاریخ شفاهی. تهران: معین ادارات.
عبدالله‌زاده، محمدمهدی (۱۳۹۵). دیدگاههایی دربارة گویاسازی. بازیابی‌شده در بیستم تیر ۱۴۰۰، از https://sarv1.blogfa.com
قهرمانی، عاطفه (۱۳۹۶). استخراج کلمات کلیدی با استفاده از تکنیک‌های متن‌کاوی. پایان‌نامة کارشناسی‌ارشد، دانشگاه گیلان، دانشکدة فنی و مهندسی.
کوینلن، مری‌کی؛ دبلیوسامر، باربارا (۱۳۹۲). راهنمای تاریخ شفاهی، ترجمة رضا مهاجر. تهران: سازمان اسناد و کتابخانة ملی ایران.
مرادی‌نیا، محمدجواد (۱۳۹۷). گویاسازی معرف تسلط نویسنده بر متن است. نشریه الکترونیکی تاریخ شفاهی، ۷ (۳۵۲): ۱۳.
نورائی، مرتضی (۱۳۹۹). گفت‌وگو با استاد دکتر مرتضی نورائی، مورخ تاریخ شفاهی و بحران کرونا. بازیابی‌شده در دوم مهر ۱۳۹۹، از: http://t.me/mardomnameh
نیک‌نفس، شفیقه (۱۳۹۲). درآمدی بر تاریخ شفاهی. در شیوه‌نامه تاریخ شفاهی سازمان اسناد و کتابخانة‌ ملی ایران. بازیابی‌شده در هفدهم تیر ۱۳۹۸، از http://www.nlai.ir
Clark, Jonathan (2013). Text mining and Scholary publishin. Research Consortium.
Darooneh, Beta (2011). Keyword extraction by nonextensivity measure. Alloation, 50 (2): 2.
Gazendam, Marta (2010). Thesaurus Based Term Ranking for Keyword Extraction. NewYork: Routledge.
Luhn, Henry (2008). The automatic creation or literature abstracts. IBM, 2 (2): 159- 160.
Meena, Kumar (2015). Feature Based Sentence Filtering Method for Extractive Automatic Text Summarization. India: Bubanswar.
Porter, Sandi (1980). An algorithm for sux stripping. Program, 14 (3): 130.
Sabestian, John (1999). Machine learning in Automate Text categorization. ACN computing survey, 34 (1): 13.
Tuffery, Sebastiani (2002). Machine learning. In Automated Text categonization, 12 (1): 1.

متن‌کاوی ابزاری کارآمد به‌منظور مستندسازی و تکمیل مصاحبه‌های تاریخ شفاهی

Text mining an Effective Tool for Documenting and Completing Oral History interviews

اصل مقاله

مراجع

دوره 13، شماره 1
خرداد 1400
صفحه 69-82

فایل ها

سابقه مقاله

هم رسانی

ارجاع به این مقاله

آمار

Text mining an Effective Tool for Documenting and Completing Oral History interviews

دوره 13، شماره 1خرداد 1400صفحه 69-82

دوره 13، شماره 1
خرداد 1400
صفحه 69-82