بررسی فرصت‌ها و چالش‌های استفاده از فناوری تشخیص گفتار (SR) در پیاده‌سازی مصاحبه‌های تاریخ شفاهی از دیدگاه صاحب‌نظران تاریخ شفاهی

نوع مقاله : مقاله پژوهشی

نویسنده

دانش آموخته رشته مطالعات آرشیوی دانشگاه الزهرا (س)

چکیده

پژوهش حاضر درصدد است تا با مطالعه و بررسی فناوری تشخیص گفتار و همچنین، استفاده از تجربه و نظرات صاحب‌نظران حوزۀ تاریخ شفاهی، قابلیت‌ها و چالش‌های به‌کارگیری آن در پیاده‌سازی مصاحبه‌های تاریخ شفاهی را شناسایی کند. روش استفاده‌شده برای انجام پژوهش توصیفی-پیمایشی است. ابزار جمع‌آوری داده‌ها پرسشنامۀ پژوهشگر ساخته است. به دلیل دشواری دسترسی پژوهشگر به جامعۀ پژوهش، از روش نمونه‌گیری گلوله‌برفی برای جمع‌آوری داده‌ها استفاده شد؛ به این صورت که از 10 صاحب‌نظر اولیه که در پاسخ به پرسشنامه همکاری داشتند، درخواست شد تا سایر صاحب‌نظرانی که در این حوزه می‌شناسند را به همکاری در پاسخ‌گویی به پرسشنامه دعوت کنند. در نهایت، 30 نفر از صاحب‌نظران تاریخ شفاهی با پاسخ‌گویی به پرسشنامه، در این پژوهش همکاری داشتند. یافته‌ها به 4 پرسش پژوهش در خصوص: 1. ارزیابی وضعیت فعلی پیاده‌سازی مصاحبه‌های تاریخ شفاهی، 2. ارزیابی کاربردهای فناوری تشخیص گفتار، 3. امکانات و شرایط لازم برای استفاده از فناوری تشخیص گفتار در پیاده‌سازی مصاحبه‌های تاریخ شفاهی و 4. شناسایی فرصت‌ها و چالش‌های استفاده از این فناوری در پیاده‌سازی مصاحبه‌های تاریخ شفاهی پاسخ می‌دهند. 67 درصد از صاحب-نظران وضعیت فعلی پیاده‌سازی مصاحبه‌های تاریخ شفاهی را نامطلوب ارزیابی می‌کنند. از میان معیارهای مورد ارزیابی برای کاربردهای فناوری، «صرفه‌جویی در زمان» با میانگین ارزش 7/3 بیشترین اهمیت را از نظر صاحب‌نظران دارد. در میان معیارهای امکانات و شرایط مورد ارزیابی برای استفاده از فناوری در پیاده‌سازی مصاحبه‌های تاریخ شفاهی، «شرایط امنیتی و رعایت اصل امانت‌داری» با میانگین 8/2 از مهم‌ترین چالش‌های استفاده از این فناوری به شمار می‌رود. «عدم دقت در پیاده‌سازی مصاحبه‌های با گویش‌های محلی و ...» از دیگر چالش‌های این فناوری است.

کلیدواژه‌ها


عنوان مقاله [English]

Examining the opportunities and challenges of using speech recognition (SR) technology in implementing oral history interviews from the perspective of oral history experts

نویسنده [English]

  • Fatemeh Ahmadi
Graduate Masters Archival Studies Of Alzahra University
چکیده [English]

The present study seeks to identify the capabilities and challenges of using speech recognition technology in implementing oral history interviews by studying and examining it, as well as using the experience and opinions of experts in the field of oral history. The method used to conduct the research is descriptive-survey. The tool of data collection is a questionnaire made by the researcher. Due to the difficulty of the researcher's access to the research community, the snowball sampling method was used to collect data.  In this way, the 10 initial experts who cooperated in answering the questionnaire were asked to invite other experts they knew in this field to cooperate in answering the questionnaire. Ultimately, 30 oral history experts cooperated in this research by answering the questionnaire. The findings answer four questions regarding 1. Assessing the current status of implementing oral history interviews, 2. Assessing the applications of speech recognition technology, 3. The possibilities and conditions necessary for using speech recognition technology in transcribing oral history interviews, and 4. Identifying the opportunities and challenges of using this technology in transcribing oral history interviews. 67% of experts evaluate the current state of oral history interview transcription as undesirable. Among the evaluated criteria for technology applications, "saving time" with an average value of 3.7 is the most important according to experts. Among the criteria of facilities and conditions evaluated for the use of technology in oral history interview transcription, "security conditions and compliance with the principle of confidentiality" with an average value of 2.8 is considered one of the challenges of using this technology. "Inaccuracy in transcribing interviews with local dialects, etc." is another challenge of this technology.

کلیدواژه‌ها [English]

  • Oral History
  • Interview
  • Transcription
  • Speech Recognition
  • Artificial Intelligence

مقدمه

یکی از مهم‌ترین مراحل تولید تاریخ شفاهی پیاده‌سازی مصاحبه‌هاست. پیاده‌سازی مصاحبۀ تاریخ شفاهی شاید کاری آسان به نظر برسد، اما روند طولانی و خسته‌کنندۀ آن موجب دشواری کار پیاده‌سازی می‌شود. ممکن است مصاحبه‌های تولیدشده از یک طرح تاریخ شفاهی به بیش از صد ساعت برسد که پیاده‌سازی آن علاوه بر دشواری ناشی از طولانی‌بودن، صرف زمان زیادی را می‌طلبد که این مسئله خود موجب تأخیر در روند بهره‌وری از یک منبع تاریخ شفاهی می‌شود. این در حالی است که در کار تولید تاریخ شفاهی، غنیمت‌شمردن زمان نقش اساسی دارد؛ زیرا منبع اصلی تولید تاریخ شفاهی حافظۀ انسان‌هایی است که شاهدان رویدادها و وقایع هستند و بدیهی است که هرچه زمان بیشتری از یک رویداد بگذرد، قدرت حافظه‌ها در بیان روایت‌ها ضعیف‌تر خواهد شد و چه‌بسا دچار فراموشی شوند. از طرفی، رشد و توسعۀ فراگیر فناوری در هر حوزۀ مطالعاتی به گونه‌ای سرعت یافته است که نادیده‌گرفتن آن موجب از دست رفتن فرصت‌هایی جبران‌ناپذیر می‌شود. مصداق بارز آن، پیشرفت‌های روزافزون فناوری‌های مبتنی بر هوش مصنوعی است. یکی از این فناوری ها تبدیل گفتار به متن[i] یا تشخیص گفتار (SR)[ii] است.

با وجود رشد روزافزون پژوهش‌های تاریخ شفاهی از نظر کمّی، استفادۀ بهینه از آنها زمانی میسّر می‌شود که تمام مراحل تولید یک منبع تاریخ شفاهی با برنامه‌ریزی صحیح و به‌درستی طی شوند. در روند تولید تاریخ شفاهی، اولین گام پس از ضبط و ثبت مصاحبه، پیاده‌سازی آن است.

پیاده‌سازی مصاحبه که از آن به شیوه‌های گوناگون مانند پیاده‌کردن، متن‌نویسی، ترانویسی، گفتارنویسی و خارج نویسی یاد شده است، نیازمند شنیدن مصاحبه و در عین حال، نوشتن سخنان رد و بدل ‌شده در جلسۀ مصاحبه است (حسن آبادی، 1386، به نقل از عزیزی، 1400، ص. 25). پیاده‌سازی اسناد شنیداری به طرزی چشمگیر میزان دسترسی به آنها را ارتقا می­بخشد. نسخۀ متنی مصاحبه را می­توان به‌راحتی ارزیابی کرد و استفاده از آن نیز به تجهیزات خاصی نیاز ندارد. اگر نسخۀ متنی طی مدت زمان اندکی پس از تهیۀ مصاحبه تهیه شود، ابهامات موجود دربارۀ جوانب شاهد و مدرک‌بودن آن از بین خواهند رفت (عزیزی، 1400، ص. 25).

پیاده‌سازی یا رونویسی نقشی محوری در تحلیل مصاحبه‌ها ایفا می‌کند. اگرچه تجزیه‌وتحلیل نباید محدود به رونوشت باشد، بلکه باید شامل نحوۀ صحبت‌کردن، حالات چهره و حرکات نیز باشد، رونوشت ابزار ضروری برای تحلیل مصاحبه‌های تاریخ شفاهی و آرشیوکردن آنهاست. به عبارت دیگر، عدم رونویسی استفاده از مصاحبه را به‌شدت محدود خواهد کرد. یکی از مشکلاتی که در این زمینه وجود دارد این است که نه فقط بخش جالب توجهی از مصاحبه‌ها بدون رونویسی آرشیو می‌شوند، بلکه امروزه مصاحبه‌های بیشتری تولید می‌شوند که برای رونویسی آنها برنامه‌ریزی نشده است. این مصاحبه‌ها کاربردی محدود دارند و در بسیاری از موارد فراموش خواهند شد. در چنین شرایطی، بدیهی است که تاریخ شفاهی در حال حاضر و در آینده نیاز شدیدی به استفاده از فناوری تشخیص خودکار گفتار[iii] و سایر فناوری‌های استخراج صدا دارد (Draxler et al., 2024, p. 38). در ایران، برخلاف بسیاری از دیگر مراکز تاریخ شفاهی در دنیا، اساس کار بر چاپ و انتشار و نه آرشیو مصاحبه­های انجام‌شده در این زمینه گذاشته شده است (حسن آبادی، 1396، ص. 9). این امر یک نقطۀ قوت در تاریخ شفاهی ایران محسوب می‌شود؛ با وجود این، دشواری‌ و زمان­بربودن پیاده­سازی نباید مورد غفلت قرار گیرد. اگرچه استفاده از فناوری تشخیص گفتار در پیاده‌سازی مصاحبه­های تاریخ شفاهی با چالش­هایی روبه‌رو است، شناخت قابلیت­ها و محدودیت­های به‌کارگیری این فناوری موجب می‌شود تا به دنبال راهکارهایی برای برطرف‌کردن محدودیت­ها و استفادۀ بهینه از امکانات آن باشیم. این پژوهش سعی دارد تا با بررسی پژوهش­های انجام‌شده در خصوص فناوری تشخیص گفتار و همچنین، از طریق بررسی دیدگاه­ها و تجربیات صاحب­نظران تاریخ شفاهی در زمینۀ پیاده­سازی مصاحبه و کاربرد فناوری تشخیص گفتار در آن، قابلیت­ها و محدودیت­های استفاده از این فناوری در تاریخ شفاهی را شناسایی کند.

 

پیشینۀ پژوهش

طبق بررسی­های انجام‌شده، در ایران، در زمینۀ کاربرد فناوری تشخیص گفتار در علوم انسانی، پژوهش­هایی محدود به نگارش درآمده‌اند. به برخی از آنها که با پژوهش حاضر ارتباطی نزدیک دارند، به ترتیب روزآمدترین تاریخ انتشار، اشاره می‌شود:

ربیعی و میرزاییان (1401) در مقاله­ای با عنوان «کاربردهای پردازش زبان طبیعی در علم اطلاعات و دانش‌شناسی با تأکید بر کتابخانه­های دیجیتال» با استفاده از روش کتابخانه­ای و تحلیل اسنادی، کاربرد پردازش زبان طبیعی در کتابخانه­های دیجیتال و عرصۀ علم اطلاعات را بررسی می‌کنند. نتایج این مطالعه نشان می­دهد پردازش زبان طبیعی در مواردی مانند نظام­های پرسش و پاسخ و به‌کارگیری فناوری خطایاب املایی، ابهام‌زدایی از عبارت‌های پرسش کاربران و پیش­بینی واژه­های مدنظر آنها، یاری‌رساندن به کاربران دارای معلولیت­های جسمی، نظرکاوی و تحلیل احساس واژگان استفاد‌شده توسط کاربران و ... قابل ردیابی است (ربیعی و میرزاییان، 1401، ص. 198).

کمالی و شیخ طاهری (1397) در مقالۀ خود با عنوان «مستندسازی گزارش­های پرستاری با استفاده از فناوری تشخیص گفتار (مزایا، موانع و چالش­ها و تسهیلگرها)»، با استفاده از روش مروری، مطالعات مختلف استفاده از فناوری تشخیص گفتار در حوزۀ پرستاری در سال­های 1990 تا 2017 میلادی در پایگاه­های اطلاعاتی PubMed, Science Direct, Google Scholar, Magira و SID را بررسی و در نهایت، 10 مطالعه در مرور متون وارد کردند. در یافته­ها، اصلی­ترین مزیت بهبود گردش کار بود و اساسی­ترین موانع کاهش دقت و تأثیر اختلال‌های محیطی شناخته شدند و استفاده از ابزارهای مناسب مهم­ترین تسهیلگر استفاده از فناوری بود (کمالی و شیخ طاهری، 1397، ص. 70).

در خارج از ایران، پژوهش­هایی جالب توجه در حوزۀ علوم کامپیوتر و هوش مصنوعی در خصوص کاربرد فناوری تشخیص گفتار در تاریخ شفاهی انجام شده‌اند. در ادامه، چند مورد از جدیدترین آنها که با پژوهش حاضر مرتبط هستند، بررسی می­شوند:

دراکسلر[iv] و همکاران (2024) در مقاله­ای با عنوان «خدمات فناوری گفتار برای پژوهش­های تاریخ شفاهی»، درگاه­ رونویسی و خدمات وب مرتبط با پردازش گفتار در BAS[v]، راهکار‌های گفتاری توسعه‌یافته در LINDAT[vi]، نحوۀ پردازش گفتار با [vii]Whisper و سایر چالش‌ها و تحولات آینده در این زمینه را بررسی می‌کنند. در این مقاله، تعدادی از نوآوری­ها و رویکردهای ابزاری در راستای بهبود تشخیص خودکار گفتار برای مصاحبه‌های تاریخ شفاهی، در یک سپر دادۀ ایمن و محافظت‌‌شده که نشت اطلاعات را به حداقل برساند، ارائه می‌شود (Draxler et al., 2024, p. 38).

گرِف[viii] (2022) در پایان­نامۀ دکتری خود با عنوان «تشخیص قوی گفتار از طریق انطباق برای مصاحبه‌های تاریخ شفاهی آلمان»، ترکیبی از روش­های مختلف انطباق دامنه را برای غلبه بر عدم وجود داده­های یادگیری نماینده و مقابله با غیرقابل پیش­بینی بودن مصاحبه­های تاریخ شفاهی مطالعه می­کند. این پژوهش سعی دارد با استفاده از تطبیق بین زبانی در یک ساختار چندمرحله‌ای، قابلیت دسترسی گسترده به ساختارهای گفتاری انگلیسی را افزایش ‌دهد. هدف اصلی این پژوهش توسعه و بهبود عملکرد سیستم­های تشخیص خودکار گفتار برای مصاحبه­های تاریخ شفاهی آلمانی بود. برای رسیدن به این هدف، با وجود کمبود داده­ها، سازگاری داده­ها و مدل­های ارائه‌شده بررسی می‌شود و به طور ویژه، بر عملکرد دنیای واقعی سیستم تمرکز و اضافه‌شدن احتمالی به دامنۀ هدف برای تمام سیستم­های پیشنهادی در نظر گرفته می­شود (Gref, 2022, p. 190).

گابِر[ix] و همکاران (2020) در پژوهشی با عنوان «فناوری تبدیل گفتار به متن به عنوان ابزار مستندسازی برای مترجمان: رویکردی جدید برای گردآوری یک مجموعه دادۀ ویژه و استخراج واژگان از سخنرانی‌های ضبط‌شدۀ ویدیویی»، سه هدف اصلی را دنبال می­کنند: 1. معرفی مناسب‌ترین برنامۀ کاربردی ASR (تشخیص خودکار گفتار) برای ایجاد مجموعه‌های داده، با مقایسۀ چندین ابزار ASR و ارزیابی عملکرد آنها، 2. استفاده از ASR به منظور استخراج واژگان از رونویسی‌های به‌دست‌آمده از سخنرانی‌های ضبط‌شدۀ ویدئویی و 3. ترویج پذیرش ASR به عنوان یک ابزار مستندسازی جدید در میان مترجمان. به اظهار پژوهشگران، این پژوهش یکی از اولین مطالعاتی است که امکان فناوری پردازش خودکار گفتار را برای برآوردن نیازهای مقدماتی مترجمان از نظر واژگان و دانش زمینه/دامنه بررسی می‌کند (Gaber et al., 2020, p. 263).  

لِه[x] و همکاران (2019) در مقاله­ای با عنوان «استخراج صدا؛ تجزیه‌وتحلیل گفتار پیشرفته برای تاریخ شفاهی»، امکانات و چالش­های فناوری استخراج صدا برای رونویسی خودکار مصاحبه­های تاریخ شفاهی را بررسی می‌کنند. این پژوهش مروری بر فناوری‌های استفاده‌شده برای تجزیه‌وتحلیل گفتار، عملکرد سیستم­های استخراج صوت در «Fraunhofer IAIS» و آرشیو تاریخ شفاهی (حافظۀ آلمانی) در دانشگاه هاگن دارد و از نتایج به‌دست‌آمده و روش­های پژوهشی جاری، پیشنهادهایی را برای بهبود یکپارچه‌سازی سیستم‌ها ارائه می‌دهد (Leh et al., 2019, pp. 1-9).

اهداف پژوهش

با توجه به آنچه گفته شد، پژوهش حاضر درصدد دست‌یابی به اهداف زیر است: 

  • بررسی وضعیت فعلی پیاده­سازی مصاحبه­های تاریخ شفاهی؛
  • بررسی دیدگاه صاحب­نظران تاریخ شفاهی در خصوص کاربرد فناوری تشخیص گفتار در پیاده­سازی مصاحبه­های تاریخ شفاهی؛
  • بررسی دیدگاه صاحب­نظران تاریخ شفاهی در خصوص امکان استفاده از فناوری تشخیص گفتار در پیاده­سازی مصاحبه­های تاریخ شفاهی؛
  • بررسی دیدگاه صاحب­نظران تاریخ شفاهی در خصوص فرصت­­ها و چالش­های استفاده از فناوری تشخیص گفتار در پیاده­سازی مصاحبه­های تاریخ شفاهی.

پرسش­های پژوهش

با توجه به اهداف دنبال‌شده در پژوهش، پرسش­های زیر مطرح می‌شوند:

  1. وضعیت فعلی پیاده­سازی مصاحبه­های تاریخ شفاهی چگونه است؟
  2. دیدگاه صاحب­نظران تاریخ شفاهی در خصوص کاربرد فناوری تشخیص گفتار در پیاده­سازی مصاحبه­های تاریخ شفاهی چیست؟
  3. دیدگاه صاحب­نظران تاریخ شفاهی دربارۀ امکانات و شرایط لازم به منظور استفاده از فناوری تشخیص گفتار در پیاده­سازی مصاحبه­های تاریخ شفاهی چیست؟
  4. از دیدگاه صاحب­نظران تاریخ شفاهی، استفاده از فناوری تشخیص گفتار در پیاده­سازی مصاحبه‌های تاریخ شفاهی چه فرصت­ها و چالش­هایی را در بر می­گیرد؟

 

فناوری تشخیص گفتار (SR)

امروزه، فناوری تشخیص خودکار گفتار یکی از شناخته‌شده­ترین و موفق­ترین رشته­های هوش مصنوعی است. تشخیص خودکار گفتار به بخشی ضروری از بسیاری از برنامه­های روزمره تبدیل شده است. ترجمۀ دقیق گفتار به متن با واژگان نسبتاً نامحدود کاربرد گستردۀ آن را به عنوان دستیار گفتار در تلفن­های هوشمند، بلندگوهای هوشمند و سایر دستگاه­ها امکان‌پذیر کرده است. در بسیاری از کاربردها، سیستم­های تشخیص خودکار گفتار به دقتِ تشخیصِ نزدیک به انسان دست می­یابند. با وجود این، تشخیص خودکار گفتار یک فناوری بدون مشکل نیست. هنوز هیچ سیستمی وجود ندارد که دقت رونویسی زیادی را در همۀ حوزه‌ها، برنامه‌ها و موقعیت‌های گفتاری ارائه دهد. این مشکل به ویژه برای زبان‌های غیرانگلیسی وجود دارد (Gref, 2022, .p. 1).

عملکرد چشمگیر مدل­های گفتاری مبتنی بر هوش مصنوعی، به ویژه در خصوص استحکام آنها در برابر اختلال[xi]، گسترۀ وسیع زبان­های پشتیبانی‌شده و امکان تطبیق آنها با دیگر زبان­ها با کمک یادگیری عمیق، تولید رونوشت‌های مناسب در حوزه­های پژوهش­هایی مانند تاریخ شفاهی که در آن زبان گفتاری منبع اصلی اطلاعات است را تا حد زیادی تسهیل می­کند. با این حال، بسته به نیازهای پژوهشگر، چالش‌های دیگری مانند تخصیص حس مناسب گوینده، خروجی رویدادهای گفتاری دقیق­تر مانند صداهای همراه با تردید، لکنت، کوتاه‌کردن کلمات و غیره وجود دارند (Draxler et al., 2024, p. 38). البته چارچوب تفسیرها متفاوت است. برای مثال، یک مورخ شفاهی ممکن است به یک مصاحبۀ ضبط‌شده به عنوان روایتی میان­ذهنی[xii] از یک تجربۀ گذشته نگاه ­کند، در حالی که مورخ دیگری ممکن است همان منبع را فقط به دلیل اطلاعات واقعی که منتقل می­کند، در نظر بگیرد. یک دانشمند علوم اجتماعی احتمالاً سعی می­کند مضامین مشترک و شباهت­ها و تفاوت­ها را در مجموعه‌ای کامل از مصاحبه­ها کشف کند، در حالی که یک زبان­شناس، برای اهداف محاسباتی، بر شمارش بسامدها[xiii]، شناسایی همنشینی­ها و رویدادهای هم‌زمان تکیه می­کند (Scagliola et al., 2020, p. 127).

توکلی[xiv] نیز معتقد است اگر تاریخ شفاهی موضوع‌محور باشد، یعنی پژوهشگر تاریخ شفاهی در نظر داشته باشد از منظر موضوع، خاطرات و زندگینامۀ اشخاصی را ثبت و ضبط کند، نرم­افزارهای تشخیص گفتار منجر به خلاصه­سازی و از دست رفتن بخشی از اطلاعات می‌شوند، ولی اگر هدف پژوهشگر، تاریخ شفاهیِ شیء‌محور باشد، برای مثال قصد داشته باشد تاریخ شفاهی یک سازمان را تدوین کند، در این صورت، استفاده از نرم‌افزارهای تشخیص گفتار می­تواند بسیار کارآمد باشد (ارتباط شخصی، 13 دی 1403).

تشخیص خودکار گفتار که به‌اختصار تشخیص گفتار نامیده می­شود، یکی از هوشمندترین شاخه­های پردازش گفتار است که به دستگاه امکان می‌دهد گفتار کاربر را بفهمد و آن را از طریق یک برنامۀ رایانه‌ای به یک مجموعه کلمات تبدیل کند و در نتیجه، نوعی ارتباط طبیعی بین انسان و ماشین ایجاد کند. این فناوری می‌تواند به صورت نمایش گرافیکیِ بسامدهای منتشرشده به عنوان تابعی از زمان تعریف شود. تمام روش­های پردازش گفتار (تجزیه‌وتحلیل گفتار، شناسایی سخنگو، تأیید سخنگو) ایجاد رابط­های صوتی (رابط ماشین-انسانی) یا انجام تعامل صوتی را ممکن می‌کنند (Benkerzaz et al., 2019, p. 78).

در ادامه، برای آشنایی بیشتر با فناوری تشخیص گفتار، ساختار و عملکرد آن به طور مختصر بررسی می‌شود:

 

معماری سیستم‌های تشخیص خودکار گفتار[xv]

هدف اصلی سیستم تشخیص گفتار این است که دستگاه قادر به گوش‌دادن و درک اطلاعات گفتاری یا صوتی برای تصمیم­گیری درست باشد. اولین مرحلۀ این سیستم تجزیه‌وتحلیل علائم[xvi] گفتار است تا آخرین نتیجه مجموعه‌ای از کلمات گفتاری باشد. بین این دو مرحله، سیستم چندین مرحله را دنبال می­کند که معمولاً بر اساس رویکرد آماری هستند. به طور کلی، سیستم تشخیص گفتار از پنج واحد تشکیل شده است که عبارت‌اند از:

  1. تجزیه‌وتحلیل: اولین مرحلۀ پردازش گفتار تجزیه‌وتحلیل است که امکان انتخاب اندازۀ قالب برای تقسیم‌بندی سیگنال ورودی را فراهم می­کند تا تحلیل دیگری را در بخش گفتار انجام دهد.
  2. مدل زبان: که به دو گروه تقسیم می­شود:
  • قطعی (دستوری): توسط متخصصان زبان طراحی شده است.
  • تصادفی (آماری): مدل­های زبانی آماری نتیجۀ برآوردِ مدل­های زبانیِ بدون نظارت بر یادگیری هستند. در بیشتر موارد، با مجموعه­ای از پارامترهای خالی شروع می‌شوند که در طول مشاهدۀ داده­های زبانی تخمین زده می­شوند.
  1. مدل تلفظ: ساختِ مدل زبان؛ نحوۀ نوشتن یک کلمه.
  2. مدل صوتی: این مدل امکان پیش‌بینی محتمل­ترین واج‌ها را در صدای ورودی فراهم می­کند.
  3. رمزگشای گفتار به متن: ترکیبی از مدل‌های قبلی است که محتمل‌ترین رونویسی متن را برای یک عبارت گفتاری معین فراهم می­کند. شکل (1) معماری کلی سیستم­های تشخیص گفتار را نشان می­دهد.

شکل 1: معماری کلی سیستم­های تشخیص خودکار گفتار

یادگیری در سیستم­های تشخیص گفتار

در تشخیص گفتار، یادگیری به فرایندی گفته می­شود که ورودی آن داده و خروجی آن یک مدل تشخیص گفتار است. سیتم­های تشخیص گفتار یکی از مدل­های هوش مصنوعی هستند که  ساختار مغز انسان را شبیه‌سازی می­کنند. از این رو، یادگیری­‌ای که در سیستم‌های تشخیص گفتار فقط با استفاده از نمونه داده‌های برچسب­دار اتفاق بیفتد، شبیه مدل یادگیری زبان اکتسابی در انسان نیست. در واقع، همان­طور که نوزادان با گوش‌دادن به بزرگسالان در اطراف خود زبان را یاد می‌گیرند، یادگیری در تشخیص گفتار نیز باید به این صورت باشد که به مرور و با به دست آوردن دانش و تجربه به دست آید. بنابراین، می­توان گفت یادگیری در تشخیص گفتار باید شبیه یادگیری در انسان باشد و وظیفۀ تشخیص گفتار تبدیل زبان گفتار به متن قابل خواندن توسط رایانه است (بهشتی، 1401، ص. 5).  

روش‌شناسی

این پژوهش از نوع کاربردی است و با روش پیمایشی-توصیفی انجام شده است. ابزار گردآوری داده­ها پرسشنامۀ پژوهشگرساخته است که با توجه به چارچوب نظری پژوهش طراحی شد و پس از بررسی روایی آن توسط 2 نفر از متخصصان تاریخ شفاهی و مطالعات آرشیوی و دو نفر از اساتید علم اطلاعات و دانش­شناسی، پرسشنامه ویرایش و بین جامعۀ پژوهش منتشر شد.

جامعۀ آماری پژوهش را اساتید تاریخ، پژوهشگران و کارشناسانی که در حوزۀ تاریخ شفاهی فعالیت دارند، تشکیل می­دهند. روش نمونه­گیری استفاده‌شده نمونه‌گیری گلوله‌برفی است. نمونه­گیری گلوله‌برفی یک روش نمونه­گیری هدفمند برای جمع­آوری داده­ها در پژوهش­های کیفی است. این روش زمانی استفاده می­شود که دسترسی به افرادی با ویژگی­های هدف دشوار باشد. در این روش، افراد مورد مطالعۀ موجود آزمودنی­های دیگر را از میان آشنایان خود پیشنهاد می­دهند (Naderifar et al., 2017, p. 2). پرسشنامه در ابتدا از طریق پست الکترونیکی و پیام­رسان­های داخلی و خارجی برای 20 نفر از صاحب­نظران تاریخ شفاهی ارسال شد که از میان ایشان، 10 نفر در پاسخ‌گویی به پرسشنامه همکاری کردند. در مرحلۀ بعد، از پاسخ­دهندگان درخواست شد تا صاحب­نظرانی که در این زمینه می‌شناسند را برای همکاری در پاسخ به پرسشنامه پیشنهاد دهند. در نهایت، 20 نفر از صاحب­نظران تاریخ شفاهی در پاسخ‌گویی به پرسشنامه، با پژوهش حاضر همکاری داشتند. پس از جمع‌آوری پرسشنامه­ها، داده­های موجود با استفاده از روش­های آماری توصیفی و تحلیلی و با استفاده از نرم‌افزار صفحه گستردۀ Excel تجزیه و تحلیل شدند.

یافته‌ها

پرسش 1. وضعیت فعلی پیاده­سازی مصاحبههای تاریخ شفاهی چگونه است؟

برای پاسخ به این پرسش، 7 پرسش در پرسشنامه مطرح شدند. در این بخش، با طرح 6 پرسش، با گزینه‌های اسمی (بله و خیر) سعی شده است تا وضعیت و شرایط پیاده­سازی مصاحبه­های تاریخ شفاهی بررسی شود. در پرسش اول، روش استفاده‌شده برای پیاده­سازی مصاحبه­ها بررسی و مشخص شد 83 درصد به روش سنتی، فایل مصاحبه را می‌شنوند و پیاده­سازی می­کنند و پس از آن، فایل رونوشت را با استفاده از واژه­پرداز وارد رایانه می‌کنند. در پرسش بعدی، در ادامۀ پرسش قبل، از پاسخ­دهندگان خواسته شد تا در صورتی که پاسخ آنها خیر است یا اینکه تا کنون از روش غیردستی استفاده کرده‌اند، پیاده­سازی مورد استفادۀ خود را بنویسند. نتایج نشان می­دهد 60 درصد از پاسخ­دهندگان روش غیردستی را تا کنون نیازموده­اند. همچنین، 20 درصد از پاسخ‌دهندگان نرم­افزار مورد استفادۀ خود را بیان نکرده‌اند. نمودار (1) توزیع فراوانی روش استفاده‌شده برای پیاده‌سازی مصاحبه­ها و نمودار (2) توزیع فراوانی روش‌های پیاده­سازی­های غیردستی به کار گرفته‌شده را نشان می­دهد. 

نمودار 1:روش استفاده‌شده برای پیاده­سازی مصاحبه ­ها

نمودار 2: روش‌های پیاده سازی غیر دستی مصاحبه ها

 

در پرسش سوم، در خصوص نمایه­سازی مصاحبه­ها پرسیده شد که 60 درصد از پاسخ­دهندگان اظهار داشتند مصاحبه­ها نمایه­سازی می­شوند. در پرسش چهارم، از پاسخ­دهندگان در خصوص نوع پیاده­سازی (کامل/ خلاصه) پرسیده می­شود. 90 درصد از پاسخ­دهندگان مصاحبه ­ها را به طور کامل پیاده­سازی می‌کنند. پرسش پنجم از پاسخ­دهندگان در خصوص وجود نیروی انسانی کافی برای پیاده­سازی مصاحبه ­ها می­پرسد که 50 درصد نیروی انسانی موجود را کافی و 50 درصد ناکافی می­دانند. پرسش ششم نظر صاحب­نظران تاریخ شفاهی را در رابطه با مطلوب‌بودن وضعیت فعلی پیاده­سازی مصاحبه­ها جویا می­شود که 67 درصد پاسخ­دهندگان شرایط فعلی را نامطلوب می­دانند. در پرسش هفتم، دربارۀ آشنایی با فناوری تشخیص گفتار (تبدیل گفتار به متن) از صاحب‌نظران پرسیده شد که 83 درصد اظهار آشنایی با این فناوری را داشتند. نمودار (3) توزیع فراوانی معیارهای مورد ارزیابی در پرسش‌های سوم تا هفتم را به نمایش می­گذارد

نمودار 2: توزیع فراوانی معیارهای مورد ارزیابی در پرسش‌های سوم تا هفتم پرسشنامه

باتوجه به آنجه از یافته­های بخش اول پرسشنامه به دست آمد، به نظر می­رسد بیشتر پژوهشگران تاریخ شفاهی با نرم­افزارهای تشخیص گفتار که به صورت رسمی و توسط شرکت­های معتبر و متخصص در زمینۀ هوشش مصنوعی ارائه می‌شوند، آشنایی کافی ندارند. استفاده از نرم­افزارهای منبع باز، اگرچه رایگان است، کارآیی لازم را برای کمک به پیاده­سازی مصاحبه­های تاریخ شفاهی ندارد. داده­های نمودار (3) که نشان می­دهد 60  درصد از پاسخ­دهندگان به کار نمایه­سازی اهمیت می­دهند، 90 درصد مصاحبه را به طور کامل پیاده­سازی می­کنند، 50 درصد نیروی انسانی برای پیاده­سازی مصاحبه­ها را ناکافی می­دانند و 67 درصد وضعیت فعلی پیاده­سازی مصاحبه­ها را نامطلوب می­دانند، توجه به فناوری تشخیص گفتار برای کمک به پیاده­سازی مصاحبه­ها را توجیه می‌کند.

 

پرسش 2. دیدگاه صاحب­نظران تاریخ شفاهی در خصوص کاربرد فناوری تشخیص گفتار در پیاده­سازی مصاحبه­های تاریخ شفاهی چیست؟

برای پاسخ به پرسش دوم، 7 پرسش به صورت معیار برای ارزیابی کاربردهای فناوری تشخیص گفتار در پیاده‌سازی مصاحبه­های تاریخ شفاهی از دیدگاه صاحب‌نظران در نظر گرفته شدند. جدول (1) معیارهای ارزیابی کاربردهای فناوری تشخیص گفتار از دیدگاه صاحب­نظران را نشان می­دهد.

جدول 1: معیارهای ارزیابی کاربرد فناوری تشخیص گفتار از دیدگاه صاحب­نظران تاریخ شفاهی

ردیف

معیار

فراوانی

درصد فراوانی

میانگین ارزش

انحراف معیار

بسیار زیاد

زیاد

متوسط

کم

بسیار کم

بسیار زیاد

زیاد

متوسط

کم

بسیار کم

1

میزان صرفه‌جویی در زمان

11

7

6

4

2

37%

3/23%

20%

3/13%

6/6%

7/3

26/1

2

افزایش کیفیت کار

پیاده‌سازی مصاحبه

1

4

8

14

3

3/3 %

3/13%

6/26%

6/46%

10%

53/2

95/0

3

افزایش کمّیت کار

پیاده‌سازی مصاحبه

1

11

11

4

3

3/3 %

6/36%

6/36%

3/13%

10%

1/3

1

4

افزایش بهره‌وری (بهرۀ بیشتر از تولیدات تاریخ شفاهی)

2

6

13

7

2

6/6%

20%

3/43%

3/23%

6/6%

96/2

98/0

5

کمک به سهولت

نمایه‌سازی مصاحبه

4

2

19

4

1

3/5%

6/6%

3/63%

3/13%

3/3%

1/3

92/0

6

کمک به مدیریت بهتر منابع تاریخ شفاهی

3

6

8

12

1

10%

20%

6/26%

40%

3/3%

93/2

1

7

میزان اثربخشی استفاده از فناوری تشخیص گفتار

3

7

7

12

1

10%

3/23%

3/23%

40%

3/3%

96/2

1

یافته ­های این بخش نشان می­دهد معیار «صرفه­جویی در زمان» با میانگین ارزش 7/3 و انحراف معیار 27/1 بیشتر از دیگر معیارها مورد توجه صاحب­نظران قرار گرفته است. پس از آن، معیارهای «کمک به سهولت نمایه‌سازی» با میانگین 1/3 و انحراف معیار 93/0 و «افزایش کمیت» با میانگین 1/3 و انحراف معیار 1 از نظر صاحب­نظران اهمیت داشتند. معیار «افزایش کیفیت کار پیاده­سازی» با میانگین ارزش 53/2 و انحراف معیار 95/0 که کمترین میزان پراکندگی بین پاسخ­ها را داشت، نشان می­دهد از نظر صاحب­نظران، این معیار می­تواند یکی از چالش­های استفاده از فناوری تشخیص گفتار در پیاده‌سازی مصاحبه­های تاریخ شفاهی به شمار رود.

پرسش 3. دیدگاه صاحب­نظران تاریخ شفاهی دربارۀ امکانات و شرایط لازم برای استفاده از فناوری تشخیص گفتار در پیاده­سازی مصاحبه­های تاریخ شفاهی چیست؟

برای پاسخ به پرسش سوم، 5 پرسش به صورت معیار ارزیابی امکانات و شرایط مورد نیاز برای استفاده از فناوری تشخیص گفتار در پیاده­سازی مصاحبه­های تاریخ شفاهی از دیدگاه صاحب­نظران در نظر گرفته شدند. جدول (2) معیارهای ارزیابی امکانات و شرایط موجود برای استفاده از فناوری تشخیص گفتار در پیاده­سازی مصاحبه­های تاریخ شفاهی از دیدگاه صاحب­نظران را نشان می­دهد.

جدول 2: معیارهای ارزیابی امکانات و شرایط لازم برای استفاده از فناوری تشخیص گفتار در تاریخ شفاهی

ردیف

معیار

فراوانی

درصد فراوانی

میانگین ارزش

انحراف معیار

بسیار زیاد

زیاد

متوسط

کم

بسیار کم

بسیار زیاد

زیاد

متوسط

کم

بسیار کم

1

امکان استفاده از اینترنت پرسرعت

5

5

10

10

0

6/16%

3/33%

3/33%

6/16 %

0

5/3

95/0

2

امکان استفاده از سیستم‌عامل­ها و برنامه‌های

رایانه‌ای روزآمد

6

8

8

8

0

20%

6/26%

6/26%

6/26%

0

4/3

1

3

نیروی انسانی آشنا به مهارت‌های رایانه‌ای

4

10

9

7

0

3/13%

3/33%

30%

3/23%

0

36/3

98/0

4

امکان اختصاص اعتبار مالی برای استفاده از فناوری تشخیص گفتار

6

5

8

11

0

20%

6/16%

6/26%

6/36%

0

2/3

15/1

5

شرایط امنیتی و رعایت اصل امانت‌داری

1

7

13

7

3

3/3%

3/23%

40%

3/23%

10%

8/2

99/0

یافته­ های این بخش نشان می­دهد از نظر صاحب‌نظران، معیار «امکان استفاده از اینترنت پرسرعت» با میانگین ارزش 5/3 و داشتن کمترین میزان پراکندگی در پاسخ­، با انحراف معیار 95/0، بیشتر از سایر معیارها برای به‌کارگیری فناوری تشخیص گفتار فراهم است. پس از آن، معیارهای «سیستم‌عامل­ها و برنامه­های رایانه­ای روزآمد» با میانگین 4/3 و انحراف معیار 1 و «نیروی انسانی آشنا به مهارت­های رایانه­ای» با میانگین 36/3 و انحراف معیار 98/0 از نظر صاحب­نظران قابل دسترس هستند. معیار «شرایط امنیتی و رعایت اصل امانت‌داری» با کمترین میانگین ارزش 8/2 و انحراف معیار 99/0 نشان می­دهد از نظر صاحب­نظران، این معیار می­تواند یکی از چالش­های به‌کارگیری فناوری تشخیص گفتار در پیاده‌سازی مصاحبه­های تاریخ شفاهی به شمار رود. 

پرسش 4. از دیدگاه صاحب­نظران تاریخ شفاهی، استفاده از فناوری تشخیص گفتار در پیاده­سازی مصاحبه­های تاریخ شفاهی چه فرصت­ها و چالش­هایی را در بر می­گیرد؟

برای پاسخ به این پرسش، طی یک پرسش از نوع پرسش باز، از صاحب­نظران درخواست شد تا نظر خود را دربارۀ فرصت­ها و چالش­هایی که در استفاده از فناوری تشخیص گفتار می­بینند، ارائه دهند. یافته­های این پرسش به روش تحلیل محتوا مطالعه شد. با توجه به اظهارات صاحب­نظران، فناوری تشخیص گفتار از نظر «افزایش سرعت در کار پیاده­سازی و صرفه­جویی در زمان» می‌تواند اثربخشی زیادی در پیاده­سازی مصاحبه­های تاریخ شفاهی داشته باشد، اما به دلیل «خطاهای ناشی از عدم تشخیص لهجه­ها، گویش­ها، زیر‌وبم صدای برخی از اشخاص به خصوص افراد سالمند با مشکل تکلّم»، «استفاده از فناوری تشخیص گفتار از طریق نرم­افزارهای منبع باز»، منجر به دوباره­کاری می‌شود. بیشتر صاحب‌نظران به ضرورت استفاده از فناوری تشخیص گفتار به متن اذعان داشتند، اما استفاده از نرم­افزارهای منبع باز موجب نارضایتی ایشان از این فناوری شده است. در جدول (3) یافته­های این بخش به تفکیک فرصت و چالش بیان شده است.

 

جدول 3: فرصتها و چالشهای استفاده از فناوری تشخیص گفتار در تاریخ شفاهی

فرصت ها

چالش ها

افزایش سرعت

عدم دقت لازم برای پیاده سازی مصاحبه های با گویش ها و لهجه های مختلف

صرفه جویی در زمان

عدم امنیت کافی

سهولت در پیاده سازی

موجب دوباره کاری و لزوم بازبینی متن می شود

سهولت دسترسی کاربران تاریخ شفاهی به مصاحبه ها

عدم قابلیت انجام ماشینی ویراستاری زبانی در حین پیاده سازی

مناسب برای تبدیل مصاحبه به کتاب

 

مناسب برای مصاحبه های شیء محور

 

نتیجه­

با توجه به یافته­های پژوهش، در بخش اول در خصوص ارزیابی وضعیت فعلی پیاده­سازی مصاحبه­های تاریخ شفاهی، 90  درصد از صاحب­نظران معتقد هستند مصاحبه­ها باید به طور کامل پیاده­سازی شوند و 60 درصد نمایه­سازی مصاحبه­ها را مهم می­دانند  و 50 درصد اذعان می­دارند نیروی انسانی کافی برای انجام این امور وجود ندارد. از این رو، وضعیت فعلی پیاده­سازی مصاحبه­های تاریخ شفاهی با دشواری­هایی همراه است که اگر فناوری تشخیص گفتار در آن به کار گرفته شود، می‌تواند منجر به بهبود وضعیت آن شود.

در بخش دوم، با ارزیابی معیارهای در نظر گرفته‌شده برای شناسایی کاربردهای فناوری تشخیص گفتار در پیاده­سازی مصاحبه­های تاریخ شفاهی، معیار «صرفه­جویی در زمان» با زیادترین میانگین، بیشترین اهمیت را از دیدگاه صاحب­نظران دارد. پس از آن، معیارهای «کمک به سهولت نمایه­سازی» و «افزایش کمیت» از نظر صاحب‌نظران کاربردی و اثربخش به نظر می­رسند. اما معیار «افزایش کیفیت کار پیاده­سازی» با کمترین میانگین ارزش نشان می­دهد از نظر صاحب­نظران، این معیار می‌تواند یکی از چالش­های استفاده از فناوری تشخیص گفتار در پیاده­سازی مصاحبه­های تاریخ شفاهی باشد.

 در بخش سوم، از نظر صاحب­نظران، معیار «امکان استفاده از اینترنت پرسرعت» با زیادترین میانگین ارزش بیشتر از سایر معیارها برای به‌کارگیری فناوری تشخیص گفتار در پیاده­سازی مصاحبه­های تاریخ شفاهی فراهم است. پس از آن، معیارهای «سیستم‌عامل‌ها و برنامه­های رایانه­ای روزآمد» و «نیروی انسانی آشنا به مهارت­های رایانه­ای» از نظر صاحب­نظران قابل تأمین هستند. معیار «شرایط امنیتی و رعایت اصل امانت‌داری» از نظر صاحب­نظران یکی از چالش­های به‌کارگیری فناوری تشخیص گفتار در پیاده­سازی مصاحبه­های تاریخ شفاهی به شمار می­رود.

استفاده از فناوری تشخیص گفتار، مانند هر فناوری دیگری، همان‌قدر که فرصت­ها و امکاناتی را فراهم می‌آورد، چالش­هایی را نیز به همراه دارد. اما چالش­ها نباید مانع شوند تا از کاربردهای این فناوری چشم‌پوشی کنیم. این فناوری مبتنی بر هوش مصنوعی است که به طرزی شگفت­آور و روزافزون در حال پیشرفت و گسترش در علوم و حوزه­های مختلف است. با پیشرفت روزافزون فناوری، ما ملزم هستیم فناوری را در خدمت دانش درآوریم؛ چارۀ کار، کنار گذاشتن آن نیست‌.

این پژوهش برای بررسی فرصت­ها و چالش­های استفاده از فناوری تبدیل گفتار به متن در پیاده­سازی مصاحبه­های تاریخ شفاهی انجام شد تا با شناخت فرصت­ها، امکان توجه به این فناوری و برنامه­ریزی برای به‌کارگیری آن در پیاده­سازی مصاحبه­های تاریخ شفاهی فراهم شود. امروزه در کشور شرکت­های دانش­بنیان بسیاری در حال خدمت‌رسانی در زمینۀ هوش مصنوعی هستند که یکی از محصولات آنها خدمات پردازش گفتار است؛ شرکت­هایی مانند مرکز تحقیقات هوش مصنوعی پارت که سرویس گفتار به متن آن با نام آوانگار در حال خدمت­رسانی در این زمینه است. همچنین، فارس‌آوا نام خدمات پردازش گفتار شرکت دانش­بنیان عامراندیش هوشمند است. پیشنهاد می­شود سازمان­های فعال در زمینۀ تولید تاریخ شفاهی و همچنین، سایر مراکز اسنادی و آرشیوی، چنانچه در نظر داشته باشند از این فناوری استفاده کنند، از شرکت­های معتبر در این زمینه مشاوره دریافت کنند. 

همچنین، با شناخت چالش­ها و اطلاع­رسانی در خصوص آنها، این امکان برای متخصصان حوزۀ هوش مصنوعی که ارائه‌دهندۀ خدمات فناوری تشخیص گفتار هستند، فراهم می‌شود تا با بررسی و مطالعۀ این چالش­ها، درصدد یافتن راهکارهایی برای حل آنها باشند. فناوری‌های هوش مصنوعی مبتنی بر یادگیری هستند. استفاده از مدل­های یادگیری عمیق و ایجاد مجموعه داده‌های خاص از گویش­ها و لهجه­های مختلف می­تواند یکی از راهکارهای مورد استفادۀ دانشمندان حوزۀ هوش مصنوعی برای ارائۀ خدمات بهتر و جدیدتر باشد.

 

1 Speech to text

2 Speech Recognition

[