Fine-tuning Large Language Models for Hypernym Discovery Task: Sister Terms Do Their Part

Библиографические данные

  • Название: Fine-tuning Large Language Models for Hypernym Discovery Task: Sister Terms Do Their Part
  • Авторы: F. Sadkovskii, N. Loukachevitch, I. Grishin
  • Источник: Записки научных семинаров ПОМИ, том 546, 2025
  • Страницы: 146–173
  • Ключевые слова: Hypernym Discovery; Taxonomy Enrichment; WordNet; TaxoLLaMA; LLaMA-2

О чем статья

Работа посвящена задаче поиска гиперонимов (родовых понятий) для заданных терминов (гипонимов) — одной из базовых задач обогащения таксономий и инженерии знаний. На практике такие модели применяются при построении и расширении иерархий понятий для поиска, рекомендательных систем, каталогизации и тематической навигации.

Ключевой фокус статьи — корректность оценивания: авторы анализируют распространённый сценарий обучения на парах «гипоним–гипероним» из WordNet и показывают, что стандартной очистки данных (удаления тестовых терминов из обучения) недостаточно.

Ключевой результат

Показано, что присутствие в обучающей выборке со-гипонимов (терминов, разделяющих одного и того же родителя-гипероним) создаёт скрытую форму утечки данных (data leakage) и искусственно завышает метрики качества при тестировании.

Практический смысл вывода: в реальных проектах обогащения таксономий со-гипонимы для новых концептов часто отсутствуют — следовательно, «улучшение» качества из-за со-гипонимов в обучении вводит в заблуждение относительно прикладной полезности модели.

Экспериментальная постановка (кратко)

  • В качестве бенчмарка использован SemEval-2018 Task 9 (“1A: English”) с разбиением на training/test.
  • Модель дообучалась по двухэтапной схеме TaxoLLaMA: (1) первичное fine-tuning на WordNet-парах «гипоним–гипероним» (с вариантами наличия/отсутствия определений), (2) вторичное fine-tuning на тренировочной части “1A: English”.
  • Сравнивались режимы подготовки обучающих данных: с сохранением со-гипонимов и с их исключением (а также контрольные варианты с исключением других типов узлов/случайным удалением).

Почему это важно для инженерии знаний и ИИ

  • Для бенчмаркинга: статья фиксирует риск “ложного прогресса”, когда рост метрик обусловлен не улучшением модели, а структурой/пересечениями данных.
  • Для практических систем: при построении пайплайнов расширения таксономий (в т.ч. на базе LLM) требуется более строгая политика формирования обучающих выборок: исключать не только тестовые термины, но и их со-гипонимы.
  • Для методологии: обсуждается перспектива более «естественной» и потенциально менее смещённой оценки через диахронические версии WordNet (обучение на старой версии и тестирование на новой).

Финансирование и вычислительная инфраструктура

  • Работа выполнена при поддержке Междисциплинарной научно-образовательной школы МГУ (грант № 23-ШЧ05-11) в рамках государственного задания (рег. № 124020100068-4).
  • Вычисления проводились с использованием сервиса Yandex DataSphere при поддержке НКО «ИНТЕЛЛЕКТ».

Как цитировать

Sadkovskii F., Loukachevitch N., Grishin I. Fine-tuning Large Language Models for Hypernym Discovery Task: Sister Terms Do Their Part. Записки научных семинаров ПОМИ. Том 546. 2025. С. 146–173.

Материалы