eye-tracking و ادغام آن در مدل‌های زبان

eye-tracking
پردازش زبان طبیعی

eye-tracking و ادغام آن در مدل‌های زبان

eye-tracking

چکیده:

در سال‌های اخیر، مدل‌های زبانی بزرگ (Large Language Models – LLMs) مانند GPT و BERT، تحولی چشمگیر در حوزه پردازش زبان طبیعی (NLP) ایجاد کرده‌اند. با این وجود، همچنان فاصله‌ای قابل توجه میان عملکرد این مدل‌ها و درک شناختی انسان وجود دارد. این مقاله به بررسی رویکرد نوینی می‌پردازد که در آن، داده‌های حاصل از ردیابی حرکات چشم (Eye‑Tracking) به عنوان سیگنالی شناختی در مدل‌های زبانی ادغام می‌شوند. نتایج مطالعات اولیه نشان می‌دهد که استفاده از gaze انسان در مرحله attention، موجب بهبود دقت مدل، کاهش تولید محتوای نادرست (hallucination) و افزایش تفسیرپذیری می‌شود.

مقدمه:

پردازش زبان طبیعی یکی از مهم‌ترین حوزه‌های هوش مصنوعی محسوب می‌شود. مدل‌هایی نظیر GPT و BERT با بهره‌گیری از معماری ترنسفورمر، توانایی شگفت‌انگیزی در درک و تولید زبان دارند. اما برخلاف مغز انسان، این مدل‌ها فاقد توانایی درک شناختی و توجه واقعی به کلمات کلیدی هستند. تحقیقات جدید در حوزه Neuro-Symbolic NLP نشان می‌دهند که حرکات چشم می‌تواند اطلاعاتی مهم درباره درک واقعی انسان از متن ارائه دهد. این اطلاعات می‌توانند به عنوان لایه‌ای اضافی در معماری attention استفاده شوند و کیفیت پردازش مدل را ارتقاء دهند.

روش‌شناسی (Methodology):

در این رویکرد نوآورانه، داده‌های حاصل از ردیابی حرکات چشم (Eye-Tracking) به عنوان نماینده‌ای از توجه واقعی انسان نسبت به متن، استخراج و به‌صورت بردارهای gaze (gaze vectors) ثبت می‌شوند. این بردارها نشان می‌دهند که چشم انسان هنگام خواندن یک جمله یا پاراگراف، بر کدام کلمات یا نواحی متمرکز شده است و برای چه مدت زمانی. این داده‌ها سپس با داده‌های متنی سنتی ترکیب شده و در مرحله ورودی یا attention به مدل‌های زبانی تزریق می‌شوند. هدف این است که مدل، مشابه انسان، بتواند کلمات مهم‌تر را بهتر تشخیص داده و به آن‌ها وزن بیشتری در تحلیل خود اختصاص دهد.

یکی از برجسته‌ترین مدل‌هایی که از این رویکرد استفاده کرده، GazeBERT است. این مدل توسعه‌یافته بر پایه ساختار BERT بوده و توانسته با افزودن لایه attention آگاه از gaze (gaze-aware attention)، توجه مدل را با تمرکز انسانی هماهنگ‌تر کند. پایگاه داده‌های معتبری همچون ZuCo (Zurich Cognitive Language Processing Corpus) برای آموزش این مدل استفاده شده‌اند که شامل داده‌های هم‌زمان متنی و حرکات چشمی انسان هستند.

نتایج و مزایا:

نتایج تجربی در چندین پژوهش نشان داده‌اند که مدل‌های gaze-aware در مقایسه با مدل‌های کلاسیک، بهبود چشمگیری در دقت و تفسیرپذیری ارائه داده‌اند. برخی از مهم‌ترین وظایفی که این مزایا در آن‌ها مشاهده شده عبارت‌اند از:

  • تشخیص موجودیت‌های نامدار (Named Entity Recognition – NER):
    مدل با استفاده از gaze بهتر می‌تواند تشخیص دهد که چه نام‌ها یا عبارت‌هایی از نظر انسانی حائز اهمیت هستند، مانند اسامی افراد، سازمان‌ها یا مکان‌ها.

  • پاسخ به پرسش‌های چندرسانه‌ای (Visual Question Answering – VQA):
    با ترکیب gaze و اطلاعات تصویری، مدل قادر است بخش‌هایی از تصویر یا متن را که انسان احتمالاً به آن توجه می‌کند، بهتر تشخیص داده و پاسخ‌های دقیق‌تری ارائه دهد.

  • تحلیل احساسات (Sentiment Analysis):
    با تمرکز بر کلمات دارای بار احساسی که انسان‌ها روی آن‌ها مکث می‌کنند، تحلیل احساسات دقیق‌تر انجام شده و نتایج، به رفتار شناختی انسان نزدیک‌تر شده است.

علاوه‌بر آن، مدل‌های gaze-integrated از نظر تفسیرپذیری (Interpretability) نیز عملکرد بهتری داشته‌اند؛ زیرا نقشه‌های attention آن‌ها (attention maps) با داده‌های واقعی انسان هم‌راستاتر هستند. این همراستایی باعث می‌شود که مدل نه تنها بهتر یاد بگیرد، بلکه برای تحلیل‌گر انسانی نیز قابل توضیح‌تر باشد و بتوان رفتار درونی آن را درک کرد.

در مجموع، ادغام gaze در مدل‌های NLP، نه‌تنها باعث افزایش دقت عملکرد می‌شود، بلکه گامی مهم در مسیر توسعه هوش مصنوعی شفاف و قابل اعتماد به‌شمار می‌آید.

چالش‌ها:

  • هزینه بالا و تجهیزات تخصصی موردنیاز برای ثبت gaze

  • هم‌راستاسازی داده‌های چشمی با توکن‌های زبانی

  • کمبود داده‌های استاندارد چشم‌محور برای زبان‌های غیر انگلیسی

این چالش‌ها مسیر تحقیقاتی فعالی برای پژوهشگران هوش مصنوعی و شناختی فراهم کرده‌اند.

نتیجه‌گیری و آینده‌پژوهی:

ادغام سیگنال‌های شناختی با مدل‌های NLP، گامی نوین در راستای توسعه مدل‌های زبانی هوشمند، قابل‌اعتماد و انسانی‌محور است. با پیشرفت فناوری‌هایی مانند دوربین‌های موبایل مبتنی بر gaze detection و تحلیل EEG، می‌توان مدل‌هایی توسعه داد که درک و پاسخ آن‌ها بیشتر با شیوه‌های ذهنی انسان هماهنگ باشد. این مسیر، آینده‌ای نویدبخش برای هوش مصنوعی شناختی (Cognitive AI) رقم خواهد زد.