eye-tracking و ادغام آن در مدلهای زبان
eye-tracking و ادغام آن در مدلهای زبان
eye-tracking
چکیده:
در سالهای اخیر، مدلهای زبانی بزرگ (Large Language Models – LLMs) مانند GPT و BERT، تحولی چشمگیر در حوزه پردازش زبان طبیعی (NLP) ایجاد کردهاند. با این وجود، همچنان فاصلهای قابل توجه میان عملکرد این مدلها و درک شناختی انسان وجود دارد. این مقاله به بررسی رویکرد نوینی میپردازد که در آن، دادههای حاصل از ردیابی حرکات چشم (Eye‑Tracking) به عنوان سیگنالی شناختی در مدلهای زبانی ادغام میشوند. نتایج مطالعات اولیه نشان میدهد که استفاده از gaze انسان در مرحله attention، موجب بهبود دقت مدل، کاهش تولید محتوای نادرست (hallucination) و افزایش تفسیرپذیری میشود.
مقدمه:
پردازش زبان طبیعی یکی از مهمترین حوزههای هوش مصنوعی محسوب میشود. مدلهایی نظیر GPT و BERT با بهرهگیری از معماری ترنسفورمر، توانایی شگفتانگیزی در درک و تولید زبان دارند. اما برخلاف مغز انسان، این مدلها فاقد توانایی درک شناختی و توجه واقعی به کلمات کلیدی هستند. تحقیقات جدید در حوزه Neuro-Symbolic NLP نشان میدهند که حرکات چشم میتواند اطلاعاتی مهم درباره درک واقعی انسان از متن ارائه دهد. این اطلاعات میتوانند به عنوان لایهای اضافی در معماری attention استفاده شوند و کیفیت پردازش مدل را ارتقاء دهند.
روششناسی (Methodology):
در این رویکرد نوآورانه، دادههای حاصل از ردیابی حرکات چشم (Eye-Tracking) به عنوان نمایندهای از توجه واقعی انسان نسبت به متن، استخراج و بهصورت بردارهای gaze (gaze vectors) ثبت میشوند. این بردارها نشان میدهند که چشم انسان هنگام خواندن یک جمله یا پاراگراف، بر کدام کلمات یا نواحی متمرکز شده است و برای چه مدت زمانی. این دادهها سپس با دادههای متنی سنتی ترکیب شده و در مرحله ورودی یا attention به مدلهای زبانی تزریق میشوند. هدف این است که مدل، مشابه انسان، بتواند کلمات مهمتر را بهتر تشخیص داده و به آنها وزن بیشتری در تحلیل خود اختصاص دهد.
یکی از برجستهترین مدلهایی که از این رویکرد استفاده کرده، GazeBERT است. این مدل توسعهیافته بر پایه ساختار BERT بوده و توانسته با افزودن لایه attention آگاه از gaze (gaze-aware attention)، توجه مدل را با تمرکز انسانی هماهنگتر کند. پایگاه دادههای معتبری همچون ZuCo (Zurich Cognitive Language Processing Corpus) برای آموزش این مدل استفاده شدهاند که شامل دادههای همزمان متنی و حرکات چشمی انسان هستند.
نتایج و مزایا:
نتایج تجربی در چندین پژوهش نشان دادهاند که مدلهای gaze-aware در مقایسه با مدلهای کلاسیک، بهبود چشمگیری در دقت و تفسیرپذیری ارائه دادهاند. برخی از مهمترین وظایفی که این مزایا در آنها مشاهده شده عبارتاند از:
-
تشخیص موجودیتهای نامدار (Named Entity Recognition – NER):
مدل با استفاده از gaze بهتر میتواند تشخیص دهد که چه نامها یا عبارتهایی از نظر انسانی حائز اهمیت هستند، مانند اسامی افراد، سازمانها یا مکانها. -
پاسخ به پرسشهای چندرسانهای (Visual Question Answering – VQA):
با ترکیب gaze و اطلاعات تصویری، مدل قادر است بخشهایی از تصویر یا متن را که انسان احتمالاً به آن توجه میکند، بهتر تشخیص داده و پاسخهای دقیقتری ارائه دهد. -
تحلیل احساسات (Sentiment Analysis):
با تمرکز بر کلمات دارای بار احساسی که انسانها روی آنها مکث میکنند، تحلیل احساسات دقیقتر انجام شده و نتایج، به رفتار شناختی انسان نزدیکتر شده است.
علاوهبر آن، مدلهای gaze-integrated از نظر تفسیرپذیری (Interpretability) نیز عملکرد بهتری داشتهاند؛ زیرا نقشههای attention آنها (attention maps) با دادههای واقعی انسان همراستاتر هستند. این همراستایی باعث میشود که مدل نه تنها بهتر یاد بگیرد، بلکه برای تحلیلگر انسانی نیز قابل توضیحتر باشد و بتوان رفتار درونی آن را درک کرد.
در مجموع، ادغام gaze در مدلهای NLP، نهتنها باعث افزایش دقت عملکرد میشود، بلکه گامی مهم در مسیر توسعه هوش مصنوعی شفاف و قابل اعتماد بهشمار میآید.
چالشها:
-
هزینه بالا و تجهیزات تخصصی موردنیاز برای ثبت gaze
-
همراستاسازی دادههای چشمی با توکنهای زبانی
-
کمبود دادههای استاندارد چشممحور برای زبانهای غیر انگلیسی
این چالشها مسیر تحقیقاتی فعالی برای پژوهشگران هوش مصنوعی و شناختی فراهم کردهاند.
نتیجهگیری و آیندهپژوهی:
ادغام سیگنالهای شناختی با مدلهای NLP، گامی نوین در راستای توسعه مدلهای زبانی هوشمند، قابلاعتماد و انسانیمحور است. با پیشرفت فناوریهایی مانند دوربینهای موبایل مبتنی بر gaze detection و تحلیل EEG، میتوان مدلهایی توسعه داد که درک و پاسخ آنها بیشتر با شیوههای ذهنی انسان هماهنگ باشد. این مسیر، آیندهای نویدبخش برای هوش مصنوعی شناختی (Cognitive AI) رقم خواهد زد.