Разработка технологии визуализации массивов неформализованных данных разнородной структуры, полученных путем автоматического анализа новостных потоковФедеральная целевая
программа «Исследования и разработки по приоритетным
направлениям развития научно-технического комплекса России на
2014-2020 годы». Ключевые слова: системы поддержки принятия решений, технологии визуализации, визуализация неструктурированной информации, анализ текстов на естественном языке, текст-майнинг, извлечение информации Этап № 2 (промежуточный)В ходе выполнения проекта по Соглашению о предоставлении субсидии от 06.11.2014 № 14.604.21.0138 с Минобрнауки России в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы» на этапе № 2 в период с 01.01.2015 по 30.06.2015 выполнялись следующие работы:
При этом были получены следующие результаты:
Полученные результаты соответствуют требованиям к выполняемому проекту. На настоящий момент результатов интеллектуальной деятельности не создано. Полученные в ходе работы результаты дают основание для разработки программной документации, отражающей экспериментальную реализацию разработанных научно-технических решений, а также разработки программы и методик экспериментальных исследований ЭО ПО ВНД новостных потоков разнородной структуры на следующих этапах ПНИ. Созданная в результате ПНИ технология интерактивной визуализации неформализованных данных разнородной структуры найдет применение при разработке систем поддержки принятия решений в проблемных областях, для которых ранее не существовало эффективных способов использования больших массивов текстовой информации при принятии решений. Инновационные технологии в области визуализации неструктурированной информации также могут найти широкое применение в проблемных областях, для которых системы поддержки принятия решений уже существуют, позволяя вовлечь в процесс принятия решения новую, ранее недоступную для анализа информацию. Комиссия Минобрнауки России признала обязательства по Соглашению на отчетном этапе выполненными надлежащим образом. Этап № 4 (промежуточный)В ходе выполнения проекта по Соглашению о предоставлении субсидии от 06.11.2014 № 14.604.21.0138 с Минобрнауки России в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы» на этапе № 4 в период с 01.01.2016 по 30.06.2016 выполнялись следующие работы:
При этом в рамках проекта были получены следующие результаты. Выполнен аналитической обзор современной научно-технической литературы. Обзор охватывает темы извлечения информации из текстов, нормализации извлеченной из текстов информации, построения и использования многомерных матриц, визуализации информации. В ходе работы над обзором были проанализированы материалы более 150 российских и зарубежных источников. Исследование литературы позволило определить наиболее перспективные направления для дальнейших теоретических и экспериментальных исследований. Предложен новый алгоритм, одновременно обеспечивающий визуализацию структуры связей между информационными объектами (ИО) (на основе алгоритмов раскладки графов), представление сводной информации о характеристиках ИО (в виде гистограмм) и интерактивное уточнение проекции многомерной матрицы связей между ИО. Сформулированы основные требования к исходным текстовым данным, позволяющие гарантировать возможность определения ИО и связей между ними, а также cпособствующие повышению качества и полноты работы средств извлечения информации из неструктурированного текста. Разработана функциональная модель и алгоритм извлечения ИО и связей между ними. Новизна подхода заключается в сочетании паттернов, обеспечивающих линейную разметку текста, и методов синтаксического анализа с использованием обобщенного LR-анализатора (GLR). Разработана функциональная модель и алгоритмы нормирования ИО. Предложен новый способ нормирования, обеспечивающий типизацию форматов отображения в соответствии с особенностями интерактивного алгоритма визуализации. Разработана модель, обеспечивающая интерактивную визуализацию, которая предусматривает визуализацию для различных видов сущностей: исходные документы с выделенными метаданными, извлеченные из текстов ИО и связи между ними, события, косвенные связи между сущностями. Преимущество предложенного подхода заключается в легкости доработки для использования в качестве средства визуализации при анализе социальных сетей. Разработана программная документация, отражающая экспериментальную реализацию разработанных научно-технических решений, и Программа и методики экспериментальных исследований ЭО ПО ВНД новостных потоков разнородной структуры. Создан экспериментальный образец программного обеспечения визуализации неформализованных данных (ЭО ПО ВНД) новостных потоков разнородной структуры и проведены экспериментальные исследования ЭО ПО ВНД в соответствии с Программой и методиками. Программа экспериментальных исследований выполнена полностью. По итогам экспериментальных исследований сделано заключение о том, что ЭО ПО ВНД соответствует заданным в техническом задании требованиям, перечисленным в Программе и методиках экспериментальных исследований, а документация на ЭО ПО ВНД в техническом и патентно-правовом аспекте соответствует заданным в техническом задании требованиям, перечисленным в Программе и методиках экспериментальных исследований. Полученные результаты соответствуют требованиям к выполняемому проекту. На отчетном этапе было создано два охраноспособных результата интеллектуальной деятельности.
Созданная в результате ПНИ технология интерактивной визуализации неформализованных данных разнородной структуры найдет применение при разработке систем поддержки принятия решений в проблемных областях, для которых ранее не существовало эффективных способов использования больших массивов текстовой информации при принятии решений. Инновационные технологии в области визуализации неструктурированной информации также могут найти широкое применение в проблемных областях, для которых системы поддержки принятия решений уже существуют, позволяя вовлечь в процесс принятия решения новую, ранее недоступную для анализа информацию. Комиссия Минобрнауки России признала обязательства по Соглашению на отчетном этапе выполненными надлежащим образом. Этап № 5 (заключительный)В ходе выполнения проекта по Соглашению о предоставлении субсидии от 06.11.2014 № 14.604.21.0138 с Минобрнауки России в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы» на этапе № 5 в период с 01.07.2016 по 30.12.2016 выполнялись следующие работы.
При этом в рамках проекта были получены следующие результаты. Выполнен аналитической обзор современной научно-технической литературы по извлечению информации из текстов, нормализации извлеченной из текстов информации, построению и использованию многомерных матриц, визуализации информации (более 150 российских и зарубежных источников). Предложен новый алгоритм, обеспечивающий визуализацию структуры связей между информационными объектами (ИО), представление сводной информации о характеристиках ИО и интерактивное уточнение проекции многомерной матрицы связей между ИО. Разработаны функциональные модели и алгоритмы: извлечения ИО и связей между ними; нормирования ИО. Предложен новый способ нормирования, обеспечивающий типизацию форматов отображения в соответствии с особенностями интерактивного алгоритма визуализации. Разработана модель интерактивной визуализации для различных видов сущностей: исходные документы с выделенными метаданными, извлеченные из текстов ИО и связи между ними, события, косвенные связи между сущностями. Преимущество подхода заключается в легкости доработки для использования в качестве средства визуализации при анализе социальных сетей. Создан экспериментальный образец программного обеспечения визуализации неформализованных данных новостных потоков разнородной структуры. Проведена технико-экономическая оценка рыночного потенциала полученных результатов. Разработан проект ТЗ на проведение ОКР. Разработанные программные решения построены на основе расширяемой программной архитектуры, имеют модульную структуру и позволяют подключать необходимый набор компонентов в зависимости от конкретной задачи анализа и визуализации. Разработаны новые методы визуализации информационных объектов, ориентированные на отображение слабоструктурированной информации, когда информация структурирована только до определенной степени и далее становится текстовой. Использованы новые методы локального анализа текста, учитывающие имеющуюся структуру в качестве метаданных. Для решения задачи извлечения ИО за основу взяты детерминированные алгоритмы на основе конечных преобразователей, работающих над интервальной разметкой, в сочетании с проблемно-ориентированным управляемым анализом синтактико-семантической структуры. Новизна предложенного решения для извлечения ИО заключается в сочетании паттернов, обеспечивающих линейную разметку текста, и методов синтаксического анализа с использованием обобщенного LR-анализатора (GLR). Полученные результаты соответствуют требованиям к выполняемому проекту. В части обработки текстовой информации эффективность результатов сопоставима с современными системами извлечения информации, основанными на правилах и онтологиях, а в части визуализации – с решениями, основанными на интерактивном представлении графов. Полученные результаты соответствуют требованиям к выполняемому проекту. В рамках проекта было создано три охраноспособных результата интеллектуальной деятельности.
Созданная в результате ПНИ технология интерактивной визуализации неформализованных данных разнородной структуры найдет применение при разработке систем поддержки принятия решений в проблемных областях, для которых ранее не существовало эффективных способов использования больших массивов текстовой информации при принятии решений. Инновационные технологии в области визуализации неструктурированной информации также могут найти широкое применение в проблемных областях, для которых системы поддержки принятия решений уже существуют, позволяя вовлечь в процесс принятия решения новую, ранее недоступную для анализа информацию. Комиссия Минобрнауки России признала обязательства по Соглашению на отчетном этапе выполненными надлежащим образом. |