نوع مقاله : مقاله پژوهشی
نویسنده
دانش آموخته رشته مطالعات آرشیوی دانشگاه الزهرا (س)
چکیده
کلیدواژهها
عنوان مقاله [English]
نویسنده [English]
The present study seeks to identify the capabilities and challenges of using speech recognition technology in implementing oral history interviews by studying and examining it, as well as using the experience and opinions of experts in the field of oral history. The method used to conduct the research is descriptive-survey. The tool of data collection is a questionnaire made by the researcher. Due to the difficulty of the researcher's access to the research community, the snowball sampling method was used to collect data. In this way, the 10 initial experts who cooperated in answering the questionnaire were asked to invite other experts they knew in this field to cooperate in answering the questionnaire. Ultimately, 30 oral history experts cooperated in this research by answering the questionnaire. The findings answer four questions regarding 1. Assessing the current status of implementing oral history interviews, 2. Assessing the applications of speech recognition technology, 3. The possibilities and conditions necessary for using speech recognition technology in transcribing oral history interviews, and 4. Identifying the opportunities and challenges of using this technology in transcribing oral history interviews. 67% of experts evaluate the current state of oral history interview transcription as undesirable. Among the evaluated criteria for technology applications, "saving time" with an average value of 3.7 is the most important according to experts. Among the criteria of facilities and conditions evaluated for the use of technology in oral history interview transcription, "security conditions and compliance with the principle of confidentiality" with an average value of 2.8 is considered one of the challenges of using this technology. "Inaccuracy in transcribing interviews with local dialects, etc." is another challenge of this technology.
کلیدواژهها [English]
مقدمه
یکی از مهمترین مراحل تولید تاریخ شفاهی پیادهسازی مصاحبههاست. پیادهسازی مصاحبۀ تاریخ شفاهی شاید کاری آسان به نظر برسد، اما روند طولانی و خستهکنندۀ آن موجب دشواری کار پیادهسازی میشود. ممکن است مصاحبههای تولیدشده از یک طرح تاریخ شفاهی به بیش از صد ساعت برسد که پیادهسازی آن علاوه بر دشواری ناشی از طولانیبودن، صرف زمان زیادی را میطلبد که این مسئله خود موجب تأخیر در روند بهرهوری از یک منبع تاریخ شفاهی میشود. این در حالی است که در کار تولید تاریخ شفاهی، غنیمتشمردن زمان نقش اساسی دارد؛ زیرا منبع اصلی تولید تاریخ شفاهی حافظۀ انسانهایی است که شاهدان رویدادها و وقایع هستند و بدیهی است که هرچه زمان بیشتری از یک رویداد بگذرد، قدرت حافظهها در بیان روایتها ضعیفتر خواهد شد و چهبسا دچار فراموشی شوند. از طرفی، رشد و توسعۀ فراگیر فناوری در هر حوزۀ مطالعاتی به گونهای سرعت یافته است که نادیدهگرفتن آن موجب از دست رفتن فرصتهایی جبرانناپذیر میشود. مصداق بارز آن، پیشرفتهای روزافزون فناوریهای مبتنی بر هوش مصنوعی است. یکی از این فناوری ها تبدیل گفتار به متن[i] یا تشخیص گفتار (SR)[ii] است.
با وجود رشد روزافزون پژوهشهای تاریخ شفاهی از نظر کمّی، استفادۀ بهینه از آنها زمانی میسّر میشود که تمام مراحل تولید یک منبع تاریخ شفاهی با برنامهریزی صحیح و بهدرستی طی شوند. در روند تولید تاریخ شفاهی، اولین گام پس از ضبط و ثبت مصاحبه، پیادهسازی آن است.
پیادهسازی مصاحبه که از آن به شیوههای گوناگون مانند پیادهکردن، متننویسی، ترانویسی، گفتارنویسی و خارج نویسی یاد شده است، نیازمند شنیدن مصاحبه و در عین حال، نوشتن سخنان رد و بدل شده در جلسۀ مصاحبه است (حسن آبادی، 1386، به نقل از عزیزی، 1400، ص. 25). پیادهسازی اسناد شنیداری به طرزی چشمگیر میزان دسترسی به آنها را ارتقا میبخشد. نسخۀ متنی مصاحبه را میتوان بهراحتی ارزیابی کرد و استفاده از آن نیز به تجهیزات خاصی نیاز ندارد. اگر نسخۀ متنی طی مدت زمان اندکی پس از تهیۀ مصاحبه تهیه شود، ابهامات موجود دربارۀ جوانب شاهد و مدرکبودن آن از بین خواهند رفت (عزیزی، 1400، ص. 25).
پیادهسازی یا رونویسی نقشی محوری در تحلیل مصاحبهها ایفا میکند. اگرچه تجزیهوتحلیل نباید محدود به رونوشت باشد، بلکه باید شامل نحوۀ صحبتکردن، حالات چهره و حرکات نیز باشد، رونوشت ابزار ضروری برای تحلیل مصاحبههای تاریخ شفاهی و آرشیوکردن آنهاست. به عبارت دیگر، عدم رونویسی استفاده از مصاحبه را بهشدت محدود خواهد کرد. یکی از مشکلاتی که در این زمینه وجود دارد این است که نه فقط بخش جالب توجهی از مصاحبهها بدون رونویسی آرشیو میشوند، بلکه امروزه مصاحبههای بیشتری تولید میشوند که برای رونویسی آنها برنامهریزی نشده است. این مصاحبهها کاربردی محدود دارند و در بسیاری از موارد فراموش خواهند شد. در چنین شرایطی، بدیهی است که تاریخ شفاهی در حال حاضر و در آینده نیاز شدیدی به استفاده از فناوری تشخیص خودکار گفتار[iii] و سایر فناوریهای استخراج صدا دارد (Draxler et al., 2024, p. 38). در ایران، برخلاف بسیاری از دیگر مراکز تاریخ شفاهی در دنیا، اساس کار بر چاپ و انتشار و نه آرشیو مصاحبههای انجامشده در این زمینه گذاشته شده است (حسن آبادی، 1396، ص. 9). این امر یک نقطۀ قوت در تاریخ شفاهی ایران محسوب میشود؛ با وجود این، دشواری و زمانبربودن پیادهسازی نباید مورد غفلت قرار گیرد. اگرچه استفاده از فناوری تشخیص گفتار در پیادهسازی مصاحبههای تاریخ شفاهی با چالشهایی روبهرو است، شناخت قابلیتها و محدودیتهای بهکارگیری این فناوری موجب میشود تا به دنبال راهکارهایی برای برطرفکردن محدودیتها و استفادۀ بهینه از امکانات آن باشیم. این پژوهش سعی دارد تا با بررسی پژوهشهای انجامشده در خصوص فناوری تشخیص گفتار و همچنین، از طریق بررسی دیدگاهها و تجربیات صاحبنظران تاریخ شفاهی در زمینۀ پیادهسازی مصاحبه و کاربرد فناوری تشخیص گفتار در آن، قابلیتها و محدودیتهای استفاده از این فناوری در تاریخ شفاهی را شناسایی کند.
پیشینۀ پژوهش
طبق بررسیهای انجامشده، در ایران، در زمینۀ کاربرد فناوری تشخیص گفتار در علوم انسانی، پژوهشهایی محدود به نگارش درآمدهاند. به برخی از آنها که با پژوهش حاضر ارتباطی نزدیک دارند، به ترتیب روزآمدترین تاریخ انتشار، اشاره میشود:
ربیعی و میرزاییان (1401) در مقالهای با عنوان «کاربردهای پردازش زبان طبیعی در علم اطلاعات و دانششناسی با تأکید بر کتابخانههای دیجیتال» با استفاده از روش کتابخانهای و تحلیل اسنادی، کاربرد پردازش زبان طبیعی در کتابخانههای دیجیتال و عرصۀ علم اطلاعات را بررسی میکنند. نتایج این مطالعه نشان میدهد پردازش زبان طبیعی در مواردی مانند نظامهای پرسش و پاسخ و بهکارگیری فناوری خطایاب املایی، ابهامزدایی از عبارتهای پرسش کاربران و پیشبینی واژههای مدنظر آنها، یاریرساندن به کاربران دارای معلولیتهای جسمی، نظرکاوی و تحلیل احساس واژگان استفادشده توسط کاربران و ... قابل ردیابی است (ربیعی و میرزاییان، 1401، ص. 198).
کمالی و شیخ طاهری (1397) در مقالۀ خود با عنوان «مستندسازی گزارشهای پرستاری با استفاده از فناوری تشخیص گفتار (مزایا، موانع و چالشها و تسهیلگرها)»، با استفاده از روش مروری، مطالعات مختلف استفاده از فناوری تشخیص گفتار در حوزۀ پرستاری در سالهای 1990 تا 2017 میلادی در پایگاههای اطلاعاتی PubMed, Science Direct, Google Scholar, Magira و SID را بررسی و در نهایت، 10 مطالعه در مرور متون وارد کردند. در یافتهها، اصلیترین مزیت بهبود گردش کار بود و اساسیترین موانع کاهش دقت و تأثیر اختلالهای محیطی شناخته شدند و استفاده از ابزارهای مناسب مهمترین تسهیلگر استفاده از فناوری بود (کمالی و شیخ طاهری، 1397، ص. 70).
در خارج از ایران، پژوهشهایی جالب توجه در حوزۀ علوم کامپیوتر و هوش مصنوعی در خصوص کاربرد فناوری تشخیص گفتار در تاریخ شفاهی انجام شدهاند. در ادامه، چند مورد از جدیدترین آنها که با پژوهش حاضر مرتبط هستند، بررسی میشوند:
دراکسلر[iv] و همکاران (2024) در مقالهای با عنوان «خدمات فناوری گفتار برای پژوهشهای تاریخ شفاهی»، درگاه رونویسی و خدمات وب مرتبط با پردازش گفتار در BAS[v]، راهکارهای گفتاری توسعهیافته در LINDAT[vi]، نحوۀ پردازش گفتار با [vii]Whisper و سایر چالشها و تحولات آینده در این زمینه را بررسی میکنند. در این مقاله، تعدادی از نوآوریها و رویکردهای ابزاری در راستای بهبود تشخیص خودکار گفتار برای مصاحبههای تاریخ شفاهی، در یک سپر دادۀ ایمن و محافظتشده که نشت اطلاعات را به حداقل برساند، ارائه میشود (Draxler et al., 2024, p. 38).
گرِف[viii] (2022) در پایاننامۀ دکتری خود با عنوان «تشخیص قوی گفتار از طریق انطباق برای مصاحبههای تاریخ شفاهی آلمان»، ترکیبی از روشهای مختلف انطباق دامنه را برای غلبه بر عدم وجود دادههای یادگیری نماینده و مقابله با غیرقابل پیشبینی بودن مصاحبههای تاریخ شفاهی مطالعه میکند. این پژوهش سعی دارد با استفاده از تطبیق بین زبانی در یک ساختار چندمرحلهای، قابلیت دسترسی گسترده به ساختارهای گفتاری انگلیسی را افزایش دهد. هدف اصلی این پژوهش توسعه و بهبود عملکرد سیستمهای تشخیص خودکار گفتار برای مصاحبههای تاریخ شفاهی آلمانی بود. برای رسیدن به این هدف، با وجود کمبود دادهها، سازگاری دادهها و مدلهای ارائهشده بررسی میشود و به طور ویژه، بر عملکرد دنیای واقعی سیستم تمرکز و اضافهشدن احتمالی به دامنۀ هدف برای تمام سیستمهای پیشنهادی در نظر گرفته میشود (Gref, 2022, p. 190).
گابِر[ix] و همکاران (2020) در پژوهشی با عنوان «فناوری تبدیل گفتار به متن به عنوان ابزار مستندسازی برای مترجمان: رویکردی جدید برای گردآوری یک مجموعه دادۀ ویژه و استخراج واژگان از سخنرانیهای ضبطشدۀ ویدیویی»، سه هدف اصلی را دنبال میکنند: 1. معرفی مناسبترین برنامۀ کاربردی ASR (تشخیص خودکار گفتار) برای ایجاد مجموعههای داده، با مقایسۀ چندین ابزار ASR و ارزیابی عملکرد آنها، 2. استفاده از ASR به منظور استخراج واژگان از رونویسیهای بهدستآمده از سخنرانیهای ضبطشدۀ ویدئویی و 3. ترویج پذیرش ASR به عنوان یک ابزار مستندسازی جدید در میان مترجمان. به اظهار پژوهشگران، این پژوهش یکی از اولین مطالعاتی است که امکان فناوری پردازش خودکار گفتار را برای برآوردن نیازهای مقدماتی مترجمان از نظر واژگان و دانش زمینه/دامنه بررسی میکند (Gaber et al., 2020, p. 263).
لِه[x] و همکاران (2019) در مقالهای با عنوان «استخراج صدا؛ تجزیهوتحلیل گفتار پیشرفته برای تاریخ شفاهی»، امکانات و چالشهای فناوری استخراج صدا برای رونویسی خودکار مصاحبههای تاریخ شفاهی را بررسی میکنند. این پژوهش مروری بر فناوریهای استفادهشده برای تجزیهوتحلیل گفتار، عملکرد سیستمهای استخراج صوت در «Fraunhofer IAIS» و آرشیو تاریخ شفاهی (حافظۀ آلمانی) در دانشگاه هاگن دارد و از نتایج بهدستآمده و روشهای پژوهشی جاری، پیشنهادهایی را برای بهبود یکپارچهسازی سیستمها ارائه میدهد (Leh et al., 2019, pp. 1-9).
اهداف پژوهش
با توجه به آنچه گفته شد، پژوهش حاضر درصدد دستیابی به اهداف زیر است:
پرسشهای پژوهش
با توجه به اهداف دنبالشده در پژوهش، پرسشهای زیر مطرح میشوند:
فناوری تشخیص گفتار (SR)
امروزه، فناوری تشخیص خودکار گفتار یکی از شناختهشدهترین و موفقترین رشتههای هوش مصنوعی است. تشخیص خودکار گفتار به بخشی ضروری از بسیاری از برنامههای روزمره تبدیل شده است. ترجمۀ دقیق گفتار به متن با واژگان نسبتاً نامحدود کاربرد گستردۀ آن را به عنوان دستیار گفتار در تلفنهای هوشمند، بلندگوهای هوشمند و سایر دستگاهها امکانپذیر کرده است. در بسیاری از کاربردها، سیستمهای تشخیص خودکار گفتار به دقتِ تشخیصِ نزدیک به انسان دست مییابند. با وجود این، تشخیص خودکار گفتار یک فناوری بدون مشکل نیست. هنوز هیچ سیستمی وجود ندارد که دقت رونویسی زیادی را در همۀ حوزهها، برنامهها و موقعیتهای گفتاری ارائه دهد. این مشکل به ویژه برای زبانهای غیرانگلیسی وجود دارد (Gref, 2022, .p. 1).
عملکرد چشمگیر مدلهای گفتاری مبتنی بر هوش مصنوعی، به ویژه در خصوص استحکام آنها در برابر اختلال[xi]، گسترۀ وسیع زبانهای پشتیبانیشده و امکان تطبیق آنها با دیگر زبانها با کمک یادگیری عمیق، تولید رونوشتهای مناسب در حوزههای پژوهشهایی مانند تاریخ شفاهی که در آن زبان گفتاری منبع اصلی اطلاعات است را تا حد زیادی تسهیل میکند. با این حال، بسته به نیازهای پژوهشگر، چالشهای دیگری مانند تخصیص حس مناسب گوینده، خروجی رویدادهای گفتاری دقیقتر مانند صداهای همراه با تردید، لکنت، کوتاهکردن کلمات و غیره وجود دارند (Draxler et al., 2024, p. 38). البته چارچوب تفسیرها متفاوت است. برای مثال، یک مورخ شفاهی ممکن است به یک مصاحبۀ ضبطشده به عنوان روایتی میانذهنی[xii] از یک تجربۀ گذشته نگاه کند، در حالی که مورخ دیگری ممکن است همان منبع را فقط به دلیل اطلاعات واقعی که منتقل میکند، در نظر بگیرد. یک دانشمند علوم اجتماعی احتمالاً سعی میکند مضامین مشترک و شباهتها و تفاوتها را در مجموعهای کامل از مصاحبهها کشف کند، در حالی که یک زبانشناس، برای اهداف محاسباتی، بر شمارش بسامدها[xiii]، شناسایی همنشینیها و رویدادهای همزمان تکیه میکند (Scagliola et al., 2020, p. 127).
توکلی[xiv] نیز معتقد است اگر تاریخ شفاهی موضوعمحور باشد، یعنی پژوهشگر تاریخ شفاهی در نظر داشته باشد از منظر موضوع، خاطرات و زندگینامۀ اشخاصی را ثبت و ضبط کند، نرمافزارهای تشخیص گفتار منجر به خلاصهسازی و از دست رفتن بخشی از اطلاعات میشوند، ولی اگر هدف پژوهشگر، تاریخ شفاهیِ شیءمحور باشد، برای مثال قصد داشته باشد تاریخ شفاهی یک سازمان را تدوین کند، در این صورت، استفاده از نرمافزارهای تشخیص گفتار میتواند بسیار کارآمد باشد (ارتباط شخصی، 13 دی 1403).
تشخیص خودکار گفتار که بهاختصار تشخیص گفتار نامیده میشود، یکی از هوشمندترین شاخههای پردازش گفتار است که به دستگاه امکان میدهد گفتار کاربر را بفهمد و آن را از طریق یک برنامۀ رایانهای به یک مجموعه کلمات تبدیل کند و در نتیجه، نوعی ارتباط طبیعی بین انسان و ماشین ایجاد کند. این فناوری میتواند به صورت نمایش گرافیکیِ بسامدهای منتشرشده به عنوان تابعی از زمان تعریف شود. تمام روشهای پردازش گفتار (تجزیهوتحلیل گفتار، شناسایی سخنگو، تأیید سخنگو) ایجاد رابطهای صوتی (رابط ماشین-انسانی) یا انجام تعامل صوتی را ممکن میکنند (Benkerzaz et al., 2019, p. 78).
در ادامه، برای آشنایی بیشتر با فناوری تشخیص گفتار، ساختار و عملکرد آن به طور مختصر بررسی میشود:
معماری سیستمهای تشخیص خودکار گفتار[xv]
هدف اصلی سیستم تشخیص گفتار این است که دستگاه قادر به گوشدادن و درک اطلاعات گفتاری یا صوتی برای تصمیمگیری درست باشد. اولین مرحلۀ این سیستم تجزیهوتحلیل علائم[xvi] گفتار است تا آخرین نتیجه مجموعهای از کلمات گفتاری باشد. بین این دو مرحله، سیستم چندین مرحله را دنبال میکند که معمولاً بر اساس رویکرد آماری هستند. به طور کلی، سیستم تشخیص گفتار از پنج واحد تشکیل شده است که عبارتاند از:
شکل 1: معماری کلی سیستمهای تشخیص خودکار گفتار
یادگیری در سیستمهای تشخیص گفتار
در تشخیص گفتار، یادگیری به فرایندی گفته میشود که ورودی آن داده و خروجی آن یک مدل تشخیص گفتار است. سیتمهای تشخیص گفتار یکی از مدلهای هوش مصنوعی هستند که ساختار مغز انسان را شبیهسازی میکنند. از این رو، یادگیریای که در سیستمهای تشخیص گفتار فقط با استفاده از نمونه دادههای برچسبدار اتفاق بیفتد، شبیه مدل یادگیری زبان اکتسابی در انسان نیست. در واقع، همانطور که نوزادان با گوشدادن به بزرگسالان در اطراف خود زبان را یاد میگیرند، یادگیری در تشخیص گفتار نیز باید به این صورت باشد که به مرور و با به دست آوردن دانش و تجربه به دست آید. بنابراین، میتوان گفت یادگیری در تشخیص گفتار باید شبیه یادگیری در انسان باشد و وظیفۀ تشخیص گفتار تبدیل زبان گفتار به متن قابل خواندن توسط رایانه است (بهشتی، 1401، ص. 5).
روششناسی
این پژوهش از نوع کاربردی است و با روش پیمایشی-توصیفی انجام شده است. ابزار گردآوری دادهها پرسشنامۀ پژوهشگرساخته است که با توجه به چارچوب نظری پژوهش طراحی شد و پس از بررسی روایی آن توسط 2 نفر از متخصصان تاریخ شفاهی و مطالعات آرشیوی و دو نفر از اساتید علم اطلاعات و دانششناسی، پرسشنامه ویرایش و بین جامعۀ پژوهش منتشر شد.
جامعۀ آماری پژوهش را اساتید تاریخ، پژوهشگران و کارشناسانی که در حوزۀ تاریخ شفاهی فعالیت دارند، تشکیل میدهند. روش نمونهگیری استفادهشده نمونهگیری گلولهبرفی است. نمونهگیری گلولهبرفی یک روش نمونهگیری هدفمند برای جمعآوری دادهها در پژوهشهای کیفی است. این روش زمانی استفاده میشود که دسترسی به افرادی با ویژگیهای هدف دشوار باشد. در این روش، افراد مورد مطالعۀ موجود آزمودنیهای دیگر را از میان آشنایان خود پیشنهاد میدهند (Naderifar et al., 2017, p. 2). پرسشنامه در ابتدا از طریق پست الکترونیکی و پیامرسانهای داخلی و خارجی برای 20 نفر از صاحبنظران تاریخ شفاهی ارسال شد که از میان ایشان، 10 نفر در پاسخگویی به پرسشنامه همکاری کردند. در مرحلۀ بعد، از پاسخدهندگان درخواست شد تا صاحبنظرانی که در این زمینه میشناسند را برای همکاری در پاسخ به پرسشنامه پیشنهاد دهند. در نهایت، 20 نفر از صاحبنظران تاریخ شفاهی در پاسخگویی به پرسشنامه، با پژوهش حاضر همکاری داشتند. پس از جمعآوری پرسشنامهها، دادههای موجود با استفاده از روشهای آماری توصیفی و تحلیلی و با استفاده از نرمافزار صفحه گستردۀ Excel تجزیه و تحلیل شدند.
یافتهها
پرسش 1. وضعیت فعلی پیادهسازی مصاحبههای تاریخ شفاهی چگونه است؟
برای پاسخ به این پرسش، 7 پرسش در پرسشنامه مطرح شدند. در این بخش، با طرح 6 پرسش، با گزینههای اسمی (بله و خیر) سعی شده است تا وضعیت و شرایط پیادهسازی مصاحبههای تاریخ شفاهی بررسی شود. در پرسش اول، روش استفادهشده برای پیادهسازی مصاحبهها بررسی و مشخص شد 83 درصد به روش سنتی، فایل مصاحبه را میشنوند و پیادهسازی میکنند و پس از آن، فایل رونوشت را با استفاده از واژهپرداز وارد رایانه میکنند. در پرسش بعدی، در ادامۀ پرسش قبل، از پاسخدهندگان خواسته شد تا در صورتی که پاسخ آنها خیر است یا اینکه تا کنون از روش غیردستی استفاده کردهاند، پیادهسازی مورد استفادۀ خود را بنویسند. نتایج نشان میدهد 60 درصد از پاسخدهندگان روش غیردستی را تا کنون نیازمودهاند. همچنین، 20 درصد از پاسخدهندگان نرمافزار مورد استفادۀ خود را بیان نکردهاند. نمودار (1) توزیع فراوانی روش استفادهشده برای پیادهسازی مصاحبهها و نمودار (2) توزیع فراوانی روشهای پیادهسازیهای غیردستی به کار گرفتهشده را نشان میدهد.
نمودار 1:روش استفادهشده برای پیادهسازی مصاحبه ها
نمودار 2: روشهای پیاده سازی غیر دستی مصاحبه ها |
در پرسش سوم، در خصوص نمایهسازی مصاحبهها پرسیده شد که 60 درصد از پاسخدهندگان اظهار داشتند مصاحبهها نمایهسازی میشوند. در پرسش چهارم، از پاسخدهندگان در خصوص نوع پیادهسازی (کامل/ خلاصه) پرسیده میشود. 90 درصد از پاسخدهندگان مصاحبه ها را به طور کامل پیادهسازی میکنند. پرسش پنجم از پاسخدهندگان در خصوص وجود نیروی انسانی کافی برای پیادهسازی مصاحبه ها میپرسد که 50 درصد نیروی انسانی موجود را کافی و 50 درصد ناکافی میدانند. پرسش ششم نظر صاحبنظران تاریخ شفاهی را در رابطه با مطلوببودن وضعیت فعلی پیادهسازی مصاحبهها جویا میشود که 67 درصد پاسخدهندگان شرایط فعلی را نامطلوب میدانند. در پرسش هفتم، دربارۀ آشنایی با فناوری تشخیص گفتار (تبدیل گفتار به متن) از صاحبنظران پرسیده شد که 83 درصد اظهار آشنایی با این فناوری را داشتند. نمودار (3) توزیع فراوانی معیارهای مورد ارزیابی در پرسشهای سوم تا هفتم را به نمایش میگذارد
نمودار 2: توزیع فراوانی معیارهای مورد ارزیابی در پرسشهای سوم تا هفتم پرسشنامه |
باتوجه به آنجه از یافتههای بخش اول پرسشنامه به دست آمد، به نظر میرسد بیشتر پژوهشگران تاریخ شفاهی با نرمافزارهای تشخیص گفتار که به صورت رسمی و توسط شرکتهای معتبر و متخصص در زمینۀ هوشش مصنوعی ارائه میشوند، آشنایی کافی ندارند. استفاده از نرمافزارهای منبع باز، اگرچه رایگان است، کارآیی لازم را برای کمک به پیادهسازی مصاحبههای تاریخ شفاهی ندارد. دادههای نمودار (3) که نشان میدهد 60 درصد از پاسخدهندگان به کار نمایهسازی اهمیت میدهند، 90 درصد مصاحبه را به طور کامل پیادهسازی میکنند، 50 درصد نیروی انسانی برای پیادهسازی مصاحبهها را ناکافی میدانند و 67 درصد وضعیت فعلی پیادهسازی مصاحبهها را نامطلوب میدانند، توجه به فناوری تشخیص گفتار برای کمک به پیادهسازی مصاحبهها را توجیه میکند.
پرسش 2. دیدگاه صاحبنظران تاریخ شفاهی در خصوص کاربرد فناوری تشخیص گفتار در پیادهسازی مصاحبههای تاریخ شفاهی چیست؟
برای پاسخ به پرسش دوم، 7 پرسش به صورت معیار برای ارزیابی کاربردهای فناوری تشخیص گفتار در پیادهسازی مصاحبههای تاریخ شفاهی از دیدگاه صاحبنظران در نظر گرفته شدند. جدول (1) معیارهای ارزیابی کاربردهای فناوری تشخیص گفتار از دیدگاه صاحبنظران را نشان میدهد.
جدول 1: معیارهای ارزیابی کاربرد فناوری تشخیص گفتار از دیدگاه صاحبنظران تاریخ شفاهی
ردیف |
معیار |
فراوانی |
درصد فراوانی |
میانگین ارزش |
انحراف معیار |
||||||||
بسیار زیاد |
زیاد |
متوسط |
کم |
بسیار کم |
بسیار زیاد |
زیاد |
متوسط |
کم |
بسیار کم |
||||
1 |
میزان صرفهجویی در زمان |
11 |
7 |
6 |
4 |
2 |
37% |
3/23% |
20% |
3/13% |
6/6% |
7/3 |
26/1 |
2 |
افزایش کیفیت کار پیادهسازی مصاحبه |
1 |
4 |
8 |
14 |
3 |
3/3 % |
3/13% |
6/26% |
6/46% |
10% |
53/2 |
95/0 |
3 |
افزایش کمّیت کار پیادهسازی مصاحبه |
1 |
11 |
11 |
4 |
3 |
3/3 % |
6/36% |
6/36% |
3/13% |
10% |
1/3 |
1 |
4 |
افزایش بهرهوری (بهرۀ بیشتر از تولیدات تاریخ شفاهی) |
2 |
6 |
13 |
7 |
2 |
6/6% |
20% |
3/43% |
3/23% |
6/6% |
96/2 |
98/0 |
5 |
کمک به سهولت نمایهسازی مصاحبه |
4 |
2 |
19 |
4 |
1 |
3/5% |
6/6% |
3/63% |
3/13% |
3/3% |
1/3 |
92/0 |
6 |
کمک به مدیریت بهتر منابع تاریخ شفاهی |
3 |
6 |
8 |
12 |
1 |
10% |
20% |
6/26% |
40% |
3/3% |
93/2 |
1 |
7 |
میزان اثربخشی استفاده از فناوری تشخیص گفتار |
3 |
7 |
7 |
12 |
1 |
10% |
3/23% |
3/23% |
40% |
3/3% |
96/2 |
1 |
یافته های این بخش نشان میدهد معیار «صرفهجویی در زمان» با میانگین ارزش 7/3 و انحراف معیار 27/1 بیشتر از دیگر معیارها مورد توجه صاحبنظران قرار گرفته است. پس از آن، معیارهای «کمک به سهولت نمایهسازی» با میانگین 1/3 و انحراف معیار 93/0 و «افزایش کمیت» با میانگین 1/3 و انحراف معیار 1 از نظر صاحبنظران اهمیت داشتند. معیار «افزایش کیفیت کار پیادهسازی» با میانگین ارزش 53/2 و انحراف معیار 95/0 که کمترین میزان پراکندگی بین پاسخها را داشت، نشان میدهد از نظر صاحبنظران، این معیار میتواند یکی از چالشهای استفاده از فناوری تشخیص گفتار در پیادهسازی مصاحبههای تاریخ شفاهی به شمار رود.
پرسش 3. دیدگاه صاحبنظران تاریخ شفاهی دربارۀ امکانات و شرایط لازم برای استفاده از فناوری تشخیص گفتار در پیادهسازی مصاحبههای تاریخ شفاهی چیست؟
برای پاسخ به پرسش سوم، 5 پرسش به صورت معیار ارزیابی امکانات و شرایط مورد نیاز برای استفاده از فناوری تشخیص گفتار در پیادهسازی مصاحبههای تاریخ شفاهی از دیدگاه صاحبنظران در نظر گرفته شدند. جدول (2) معیارهای ارزیابی امکانات و شرایط موجود برای استفاده از فناوری تشخیص گفتار در پیادهسازی مصاحبههای تاریخ شفاهی از دیدگاه صاحبنظران را نشان میدهد.
جدول 2: معیارهای ارزیابی امکانات و شرایط لازم برای استفاده از فناوری تشخیص گفتار در تاریخ شفاهی
ردیف |
معیار |
فراوانی |
درصد فراوانی |
میانگین ارزش |
انحراف معیار |
||||||||
بسیار زیاد |
زیاد |
متوسط |
کم |
بسیار کم |
بسیار زیاد |
زیاد |
متوسط |
کم |
بسیار کم |
||||
1 |
امکان استفاده از اینترنت پرسرعت |
5 |
5 |
10 |
10 |
0 |
6/16% |
3/33% |
3/33% |
6/16 % |
0 |
5/3 |
95/0 |
2 |
امکان استفاده از سیستمعاملها و برنامههای رایانهای روزآمد |
6 |
8 |
8 |
8 |
0 |
20% |
6/26% |
6/26% |
6/26% |
0 |
4/3 |
1 |
3 |
نیروی انسانی آشنا به مهارتهای رایانهای |
4 |
10 |
9 |
7 |
0 |
3/13% |
3/33% |
30% |
3/23% |
0 |
36/3 |
98/0 |
4 |
امکان اختصاص اعتبار مالی برای استفاده از فناوری تشخیص گفتار |
6 |
5 |
8 |
11 |
0 |
20% |
6/16% |
6/26% |
6/36% |
0 |
2/3 |
15/1 |
5 |
شرایط امنیتی و رعایت اصل امانتداری |
1 |
7 |
13 |
7 |
3 |
3/3% |
3/23% |
40% |
3/23% |
10% |
8/2 |
99/0 |
یافته های این بخش نشان میدهد از نظر صاحبنظران، معیار «امکان استفاده از اینترنت پرسرعت» با میانگین ارزش 5/3 و داشتن کمترین میزان پراکندگی در پاسخ، با انحراف معیار 95/0، بیشتر از سایر معیارها برای بهکارگیری فناوری تشخیص گفتار فراهم است. پس از آن، معیارهای «سیستمعاملها و برنامههای رایانهای روزآمد» با میانگین 4/3 و انحراف معیار 1 و «نیروی انسانی آشنا به مهارتهای رایانهای» با میانگین 36/3 و انحراف معیار 98/0 از نظر صاحبنظران قابل دسترس هستند. معیار «شرایط امنیتی و رعایت اصل امانتداری» با کمترین میانگین ارزش 8/2 و انحراف معیار 99/0 نشان میدهد از نظر صاحبنظران، این معیار میتواند یکی از چالشهای بهکارگیری فناوری تشخیص گفتار در پیادهسازی مصاحبههای تاریخ شفاهی به شمار رود.
پرسش 4. از دیدگاه صاحبنظران تاریخ شفاهی، استفاده از فناوری تشخیص گفتار در پیادهسازی مصاحبههای تاریخ شفاهی چه فرصتها و چالشهایی را در بر میگیرد؟
برای پاسخ به این پرسش، طی یک پرسش از نوع پرسش باز، از صاحبنظران درخواست شد تا نظر خود را دربارۀ فرصتها و چالشهایی که در استفاده از فناوری تشخیص گفتار میبینند، ارائه دهند. یافتههای این پرسش به روش تحلیل محتوا مطالعه شد. با توجه به اظهارات صاحبنظران، فناوری تشخیص گفتار از نظر «افزایش سرعت در کار پیادهسازی و صرفهجویی در زمان» میتواند اثربخشی زیادی در پیادهسازی مصاحبههای تاریخ شفاهی داشته باشد، اما به دلیل «خطاهای ناشی از عدم تشخیص لهجهها، گویشها، زیروبم صدای برخی از اشخاص به خصوص افراد سالمند با مشکل تکلّم»، «استفاده از فناوری تشخیص گفتار از طریق نرمافزارهای منبع باز»، منجر به دوبارهکاری میشود. بیشتر صاحبنظران به ضرورت استفاده از فناوری تشخیص گفتار به متن اذعان داشتند، اما استفاده از نرمافزارهای منبع باز موجب نارضایتی ایشان از این فناوری شده است. در جدول (3) یافتههای این بخش به تفکیک فرصت و چالش بیان شده است.
جدول 3: فرصتها و چالشهای استفاده از فناوری تشخیص گفتار در تاریخ شفاهی
فرصت ها |
چالش ها |
افزایش سرعت |
عدم دقت لازم برای پیاده سازی مصاحبه های با گویش ها و لهجه های مختلف |
صرفه جویی در زمان |
عدم امنیت کافی |
سهولت در پیاده سازی |
موجب دوباره کاری و لزوم بازبینی متن می شود |
سهولت دسترسی کاربران تاریخ شفاهی به مصاحبه ها |
عدم قابلیت انجام ماشینی ویراستاری زبانی در حین پیاده سازی |
مناسب برای تبدیل مصاحبه به کتاب |
|
مناسب برای مصاحبه های شیء محور |
|
نتیجه
با توجه به یافتههای پژوهش، در بخش اول در خصوص ارزیابی وضعیت فعلی پیادهسازی مصاحبههای تاریخ شفاهی، 90 درصد از صاحبنظران معتقد هستند مصاحبهها باید به طور کامل پیادهسازی شوند و 60 درصد نمایهسازی مصاحبهها را مهم میدانند و 50 درصد اذعان میدارند نیروی انسانی کافی برای انجام این امور وجود ندارد. از این رو، وضعیت فعلی پیادهسازی مصاحبههای تاریخ شفاهی با دشواریهایی همراه است که اگر فناوری تشخیص گفتار در آن به کار گرفته شود، میتواند منجر به بهبود وضعیت آن شود.
در بخش دوم، با ارزیابی معیارهای در نظر گرفتهشده برای شناسایی کاربردهای فناوری تشخیص گفتار در پیادهسازی مصاحبههای تاریخ شفاهی، معیار «صرفهجویی در زمان» با زیادترین میانگین، بیشترین اهمیت را از دیدگاه صاحبنظران دارد. پس از آن، معیارهای «کمک به سهولت نمایهسازی» و «افزایش کمیت» از نظر صاحبنظران کاربردی و اثربخش به نظر میرسند. اما معیار «افزایش کیفیت کار پیادهسازی» با کمترین میانگین ارزش نشان میدهد از نظر صاحبنظران، این معیار میتواند یکی از چالشهای استفاده از فناوری تشخیص گفتار در پیادهسازی مصاحبههای تاریخ شفاهی باشد.
در بخش سوم، از نظر صاحبنظران، معیار «امکان استفاده از اینترنت پرسرعت» با زیادترین میانگین ارزش بیشتر از سایر معیارها برای بهکارگیری فناوری تشخیص گفتار در پیادهسازی مصاحبههای تاریخ شفاهی فراهم است. پس از آن، معیارهای «سیستمعاملها و برنامههای رایانهای روزآمد» و «نیروی انسانی آشنا به مهارتهای رایانهای» از نظر صاحبنظران قابل تأمین هستند. معیار «شرایط امنیتی و رعایت اصل امانتداری» از نظر صاحبنظران یکی از چالشهای بهکارگیری فناوری تشخیص گفتار در پیادهسازی مصاحبههای تاریخ شفاهی به شمار میرود.
استفاده از فناوری تشخیص گفتار، مانند هر فناوری دیگری، همانقدر که فرصتها و امکاناتی را فراهم میآورد، چالشهایی را نیز به همراه دارد. اما چالشها نباید مانع شوند تا از کاربردهای این فناوری چشمپوشی کنیم. این فناوری مبتنی بر هوش مصنوعی است که به طرزی شگفتآور و روزافزون در حال پیشرفت و گسترش در علوم و حوزههای مختلف است. با پیشرفت روزافزون فناوری، ما ملزم هستیم فناوری را در خدمت دانش درآوریم؛ چارۀ کار، کنار گذاشتن آن نیست.
این پژوهش برای بررسی فرصتها و چالشهای استفاده از فناوری تبدیل گفتار به متن در پیادهسازی مصاحبههای تاریخ شفاهی انجام شد تا با شناخت فرصتها، امکان توجه به این فناوری و برنامهریزی برای بهکارگیری آن در پیادهسازی مصاحبههای تاریخ شفاهی فراهم شود. امروزه در کشور شرکتهای دانشبنیان بسیاری در حال خدمترسانی در زمینۀ هوش مصنوعی هستند که یکی از محصولات آنها خدمات پردازش گفتار است؛ شرکتهایی مانند مرکز تحقیقات هوش مصنوعی پارت که سرویس گفتار به متن آن با نام آوانگار در حال خدمترسانی در این زمینه است. همچنین، فارسآوا نام خدمات پردازش گفتار شرکت دانشبنیان عامراندیش هوشمند است. پیشنهاد میشود سازمانهای فعال در زمینۀ تولید تاریخ شفاهی و همچنین، سایر مراکز اسنادی و آرشیوی، چنانچه در نظر داشته باشند از این فناوری استفاده کنند، از شرکتهای معتبر در این زمینه مشاوره دریافت کنند.
همچنین، با شناخت چالشها و اطلاعرسانی در خصوص آنها، این امکان برای متخصصان حوزۀ هوش مصنوعی که ارائهدهندۀ خدمات فناوری تشخیص گفتار هستند، فراهم میشود تا با بررسی و مطالعۀ این چالشها، درصدد یافتن راهکارهایی برای حل آنها باشند. فناوریهای هوش مصنوعی مبتنی بر یادگیری هستند. استفاده از مدلهای یادگیری عمیق و ایجاد مجموعه دادههای خاص از گویشها و لهجههای مختلف میتواند یکی از راهکارهای مورد استفادۀ دانشمندان حوزۀ هوش مصنوعی برای ارائۀ خدمات بهتر و جدیدتر باشد.