На главную ИПС РАН

Назад в список проектов

Разработка технологии визуализации массивов неформализованных данных разнородной структуры, полученных путем автоматического анализа новостных потоков

Федеральная целевая программа «Исследования и разработки по приоритетным направлениям развития научно-технического комплекса России на 2014-2020 годы».
Номер соглашения 14.604.21.0138.
Период выполнения: 06.11.2014 – 30.12.2016
Приоритетное направление: Информационно-телекоммуникационные системы
Критическая технология: Нано-, био-, информационные, когнитивные технологии

Ключевые слова: системы поддержки принятия решений, технологии визуализации, визуализация неструктурированной информации, анализ текстов на естественном языке, текст-майнинг, извлечение информации

Этап № 2 (промежуточный)

В ходе выполнения проекта по Соглашению о предоставлении субсидии от 06.11.2014 № 14.604.21.0138 с Минобрнауки России в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы» на этапе № 2 в период с 01.01.2015 по 30.06.2015 выполнялись следующие работы:

  1. Проведение теоретических исследований по разработке алгоритмов интерактивной визуализации неформализованных данных разнородной структуры для использования в системах поддержки принятия решений.

  2. Разработка требований к исходным данным, позволяющим гарантировать возможность определения ИО и связей между ними.

  3. Разработка комплекса научно-технических решений визуализации и обработки массивов данных новостных потоков разнородной структуры в составе:

  4. Наполнение и предварительная обработка массива данных новостных потоков для тестирования разрабатываемых алгоритмов.

При этом были получены следующие результаты:

  1. Предложен новый алгоритм, одновременно обеспечивающий визуализацию структуры связей между ИО (на основе алгоритмов раскладки графов), представление сводной информации о характеристиках ИО (в виде гистограмм) и интерактивное уточнение проекции многомерной матрицы связей между ИО.
  2. Сформулированы основные требования к исходным текстовым данным, позволяющие гарантировать возможность определения ИО и связей между ними, а также cпособствующие повышению качества и полноты работы средств извлечения информации из неструктурированного текста.
  3. Разработана функциональная модель и алгоритм извлечения ИО и связей между ними. Новизна подхода заключается в сочетании паттернов, обеспечивающих линейную разметку текста, и методов синтаксического анализа с использованием обобщенного LR-анализатора (GLR).
  4. Разработана функциональная модель и алгоритмы нормирования ИО. Предложен новый способ нормирования, обеспечивающий типизацию форматов отображения в соответствии с особенностями интерактивного алгоритма визуализации.
  5. Разработана инфологическая модель многомерной матрицы связей, обеспечивающая представление произвольных типов ИО и связей между ними.
  6. Разработана функциональная модель формирования многомерной матрицы связей и основной проекции матрицы.
  7. Разработана модель, обеспечивающая интерактивную визуализацию, которая предусматривает визуализацию для различных видов сущностей: исходные документы с выделенными метаданными, извлеченные из текстов ИО и связи между ними, события, косвенные связи между сущностями. Преимущество предложенного подхода заключается в легкости доработки для использования в качестве средства визуализации при анализе социальных сетей.
  8. Подготовлен массив данных новостных потоков для тестирования разрабатываемых алгоритмов.

Полученные результаты соответствуют требованиям к выполняемому проекту.

На настоящий момент результатов интеллектуальной деятельности не создано.

Полученные в ходе работы результаты дают основание для разработки программной документации, отражающей экспериментальную реализацию разработанных научно-технических решений, а также разработки программы и методик экспериментальных исследований ЭО ПО ВНД новостных потоков разнородной структуры на следующих этапах ПНИ. Созданная в результате ПНИ технология интерактивной визуализации неформализованных данных разнородной структуры найдет применение при разработке систем поддержки принятия решений в проблемных областях, для которых ранее не существовало эффективных способов использования больших массивов текстовой информации при принятии решений. Инновационные технологии в области визуализации неструктурированной информации также могут найти широкое применение в проблемных областях, для которых системы поддержки принятия решений уже существуют, позволяя вовлечь в процесс принятия решения новую, ранее недоступную для анализа информацию.

Комиссия Минобрнауки России признала обязательства по Соглашению на отчетном этапе выполненными надлежащим образом.

Этап № 4 (промежуточный)

В ходе выполнения проекта по Соглашению о предоставлении субсидии от 06.11.2014 № 14.604.21.0138 с Минобрнауки России в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы» на этапе № 4 в период с 01.01.2016 по 30.06.2016 выполнялись следующие работы:

  1. Разработка и создание ЭО ПО ВНД новостных потоков разнородной структуры.

  2. Проведение экспериментальных исследований ЭО ПО ВНД, в соответствии с разработанной Программой и методиками.

При этом в рамках проекта были получены следующие результаты.

Выполнен аналитической обзор современной научно-технической литературы. Обзор охватывает темы извлечения информации из текстов, нормализации извлеченной из текстов информации, построения и использования многомерных матриц, визуализации информации. В ходе работы над обзором были проанализированы материалы более 150 российских и зарубежных источников. Исследование литературы позволило определить наиболее перспективные направления для дальнейших теоретических и экспериментальных исследований.

Предложен новый алгоритм, одновременно обеспечивающий визуализацию структуры связей между информационными объектами (ИО) (на основе алгоритмов раскладки графов), представление сводной информации о характеристиках ИО (в виде гистограмм) и интерактивное уточнение проекции многомерной матрицы связей между ИО. Сформулированы основные требования к исходным текстовым данным, позволяющие гарантировать возможность определения ИО и связей между ними, а также cпособствующие повышению качества и полноты работы средств извлечения информации из неструктурированного текста. Разработана функциональная модель и алгоритм извлечения ИО и связей между ними.

Новизна подхода заключается в сочетании паттернов, обеспечивающих линейную разметку текста, и методов синтаксического анализа с использованием обобщенного LR-анализатора (GLR).

Разработана функциональная модель и алгоритмы нормирования ИО. Предложен новый способ нормирования, обеспечивающий типизацию форматов отображения в соответствии с особенностями интерактивного алгоритма визуализации.

Разработана модель, обеспечивающая интерактивную визуализацию, которая предусматривает визуализацию для различных видов сущностей: исходные документы с выделенными метаданными, извлеченные из текстов ИО и связи между ними, события, косвенные связи между сущностями.

Преимущество предложенного подхода заключается в легкости доработки для использования в качестве средства визуализации при анализе социальных сетей.

Разработана программная документация, отражающая экспериментальную реализацию разработанных научно-технических решений, и Программа и методики экспериментальных исследований ЭО ПО ВНД новостных потоков разнородной структуры.

Создан экспериментальный образец программного обеспечения визуализации неформализованных данных (ЭО ПО ВНД) новостных потоков разнородной структуры и проведены экспериментальные исследования ЭО ПО ВНД в соответствии с Программой и методиками. Программа экспериментальных исследований выполнена полностью. По итогам экспериментальных исследований сделано заключение о том, что ЭО ПО ВНД соответствует заданным в техническом задании требованиям, перечисленным в Программе и методиках экспериментальных исследований, а документация на ЭО ПО ВНД в техническом и патентно-правовом аспекте соответствует заданным в техническом задании требованиям, перечисленным в Программе и методиках экспериментальных исследований.

Полученные результаты соответствуют требованиям к выполняемому проекту.

На отчетном этапе было создано два охраноспособных результата интеллектуальной деятельности.

  1. Программа для ЭВМ "Интерпретатор контекстных правил для линейно размеченного текста" свидетельство о государственной регистрации № 2016610024 от 11.01.2016.

  2. Программа для ЭВМ "Интегрированный ресурс предметно-лингвистических знаний", свидетельство о государственной регистрации № 2016618050 от 20.07.2016.

Созданная в результате ПНИ технология интерактивной визуализации неформализованных данных разнородной структуры найдет применение при разработке систем поддержки принятия решений в проблемных областях, для которых ранее не существовало эффективных способов использования больших массивов текстовой информации при принятии решений. Инновационные технологии в области визуализации неструктурированной информации также могут найти широкое применение в проблемных областях, для которых системы поддержки принятия решений уже существуют, позволяя вовлечь в процесс принятия решения новую, ранее недоступную для анализа информацию.

Комиссия Минобрнауки России признала обязательства по Соглашению на отчетном этапе выполненными надлежащим образом.

Этап № 5 (заключительный)

В ходе выполнения проекта по Соглашению о предоставлении субсидии от 06.11.2014 № 14.604.21.0138 с Минобрнауки России в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы» на этапе № 5 в период с 01.07.2016 по 30.12.2016 выполнялись следующие работы.

  1. Выполнено обобщение результатов ПНИ.

  2. Проведена проверка результатов ПНИ на соответствие требованиям ТЗ.

  3. Проведена оценка результативности ПНИ и эффективности результатов в сравнении с современным научно-техническим уровнем.

  4. Проведена оценка полноты решения задач и достижения поставленных целей ПНИ.

  5. Проведена технико-экономическая оценка рыночного потенциала полученных результатов.

  6. Выполнено обоснование научно-технических путей последующей разработки программных комплексов на базе технологии интерактивной визуализации неформализованных данных разнородной структуры и разработка технических требований для проведения последующих ОКР (ОТР).

  7. Разработаны технические требования и предложения по разработке, производству и эксплуатации продукции с учетом технологических возможностей и особенностей индустриального партнера — организации реального сектора экономики.

  8. Разработан проект технического задания на проведение ОКР по теме: «Разработка программного комплекса поддержки принятия решений для осуществления социально-политического регулирования в регионе на базе технологии визуализации неформализованных данных, полученных путем автоматического анализа новостных потоков и содержимого социальных сетей»

При этом в рамках проекта были получены следующие результаты.

Выполнен аналитической обзор современной научно-технической литературы по извлечению информации из текстов, нормализации извлеченной из текстов информации, построению и использованию многомерных матриц, визуализации информации (более 150 российских и зарубежных источников). Предложен новый алгоритм, обеспечивающий визуализацию структуры связей между информационными объектами (ИО), представление сводной информации о характеристиках ИО и интерактивное уточнение проекции многомерной матрицы связей между ИО. Разработаны функциональные модели и алгоритмы: извлечения ИО и связей между ними; нормирования ИО. Предложен новый способ нормирования, обеспечивающий типизацию форматов отображения в соответствии с особенностями интерактивного алгоритма визуализации. Разработана модель интерактивной визуализации для различных видов сущностей: исходные документы с выделенными метаданными, извлеченные из текстов ИО и связи между ними, события, косвенные связи между сущностями. Преимущество подхода заключается в легкости доработки для использования в качестве средства визуализации при анализе социальных сетей. Создан экспериментальный образец программного обеспечения визуализации неформализованных данных новостных потоков разнородной структуры. Проведена технико-экономическая оценка рыночного потенциала полученных результатов. Разработан проект ТЗ на проведение ОКР.

Разработанные программные решения построены на основе расширяемой программной архитектуры, имеют модульную структуру и позволяют подключать необходимый набор компонентов в зависимости от конкретной задачи анализа и визуализации. Разработаны новые методы визуализации информационных объектов, ориентированные на отображение слабоструктурированной информации, когда информация структурирована только до определенной степени и далее становится текстовой. Использованы новые методы локального анализа текста, учитывающие имеющуюся структуру в качестве метаданных. Для решения задачи извлечения ИО за основу взяты детерминированные алгоритмы на основе конечных преобразователей, работающих над интервальной разметкой, в сочетании с проблемно-ориентированным управляемым анализом синтактико-семантической структуры. Новизна предложенного решения для извлечения ИО заключается в сочетании паттернов, обеспечивающих линейную разметку текста, и методов синтаксического анализа с использованием обобщенного LR-анализатора (GLR). Полученные результаты соответствуют требованиям к выполняемому проекту. В части обработки текстовой информации эффективность результатов сопоставима с современными системами извлечения информации, основанными на правилах и онтологиях, а в части визуализации – с решениями, основанными на интерактивном представлении графов.

Полученные результаты соответствуют требованиям к выполняемому проекту.

В рамках проекта было создано три охраноспособных результата интеллектуальной деятельности.

  1. Программа для ЭВМ "Интерпретатор контекстных правил для линейно размеченного текста" свидетельство о государственной регистрации № 2016610024 от 11.01.2016.

  2. Программа для ЭВМ "Интегрированный ресурс предметно-лингвистических знаний", свидетельство о государственной регистрации № 2016618050 от 20.07.2016.

  3. Программа для ЭВМ "Механизм трансформации элементов знаний", свидетельство о государственной регистрации № 2017612153, от 15.02.2017.

Созданная в результате ПНИ технология интерактивной визуализации неформализованных данных разнородной структуры найдет применение при разработке систем поддержки принятия решений в проблемных областях, для которых ранее не существовало эффективных способов использования больших массивов текстовой информации при принятии решений. Инновационные технологии в области визуализации неструктурированной информации также могут найти широкое применение в проблемных областях, для которых системы поддержки принятия решений уже существуют, позволяя вовлечь в процесс принятия решения новую, ранее недоступную для анализа информацию.

Комиссия Минобрнауки России признала обязательства по Соглашению на отчетном этапе выполненными надлежащим образом.

Назад в список проектов