Виток-TEXT

"Виток-TEXT" – специальная поисковая система в неструктурированных текстовых массивах данных.

Система предназначена для накопления, анализа и поиска в неструктурированных текстовых данных. Поддерживается большое количество форматов исходных файлов, различные способы поступления данных на обработку. Система сохраняет накопленную информацию, включая различные атрибуты исходных файлов, в собственной БД, оптимизированной для быстрого поиска.

Область применения

Данная система может применяться для произведения поиска в неструктурированной текстовой информации, накапливаемой различными организациями.

sheme_20_2 web

Источники данных

В качестве источников данных могут использоваться:

  • Файловая система (директория на диске);
  • СУБД MS SQL Server.

У пополняемых источников данных есть функция отслеживания новых файлов, направления их на обработку и ведения учета уже обработанных файлов.

Обработка файлов

Система извлекает текст из большого числа форматов файлов:

  • MS Office: doc, docx, xls, xlsx, xlsm, ppt, pptx, pptm;
  • OpenOffice: odt, ods, sxw;
  • Прочие: txt, rtf, pdf, html, mht, xml, eml, wpd.

Выполняется обработка содержимого не защищенных паролем архивов (в том числе самораспаковывающихся) форматов rar, zip, gzip, tar, tgz, bz2. Возможна реализация специализированных обработчиков структурированных файлов для извлечения и сохранения сопутствующей информации.

Кодировки текста

Автоматическое распознавание кодировки обрабатываемого текста. Поддерживается широкий список кодировок:

  • Семейство Windows-125x;
  • Семейство ISO-8859-x;
  • Семейство UTF-x;
  • Семейство KOI-8-x;
  • IBM866.

Язык текста

Автоматическое распознавание языка текста. Общее количество поддерживаемых языков – более 50, а именно:

  • Индоевропейские языки (славянские, германские, романские, балтийские, иранские и др.): русский, белорусский, украинский, польский, чешский, словацкий, болгарский, сербскохорватский, словенский, македонский, литовский, латышский, английский, немецкий, нидерландский, датский, шведский, исландский, норвежский, французский, испанский, каталанский, итальянский, португальский, румынский, молдавский, персидский, курдский, осетинский, таджикский, албанский, армянский, греческий;
  • Тюркские языки: турецкий, азербайджанский, казахский, киргизский, туркменский, узбекский, татарский, башкирский, карачаево-балкарский, монгольский;
  • Уральские языки: финский, венгерский, эстонский;
  • Семитские языки: арабский, иврит.

Обработка текста

Тексты подвергаются морфологической обработке с целью приведения слов к начальной форме. Морфологическая поддержка реализована для всех распознаваемых языков. Для русского языка реализовано исправление орфографических ошибок в исходном тексте и в поисковом запросе.

Выделение объектов

При обработке текста осуществляется выделение объектов. Типы выделяемых объектов образуют три основных класса:

  • Шаблонные объекты: номера телефонов, документов, номера автомобилей и т.п. Производится преобразование различных способов записи одного и того же объекта между собой.
  • Словарные объекты: фамилии, имена, отчества, адресные объекты, транспортные узлы, марки и модели автомобилей и прочие.
  • Даты. Поддерживаются различные способы записи, полные и неполные (без указания года) даты.

Справочники объектов являются пополняемыми, включая пакетную загрузку из текстовых файлов.

Рубрикация

Выполняется рубрикация текстов - определение тематической направленности текста на основе справочника слов и словосочетаний. Справочники являются пополняемыми и позволяют создавать новые рубрики.

Классификация

Выполняется классификация текстов - определение тематической направленности текста при помощи классификатора, основанного на использовании обучающих текстов. При использовании классификатора производится статистический анализ отобранных текстов для автоматического выявления признаков, значимых для заданной темы. Имеется возможность интеграции функции отбора обучающих текстов в рабочее место оператора системы.

Определение типа документа

Анализ форматирования текста (для форматов файлов, поддерживающих такую возможность) для определения типа документа в соответствии с набором шаблонов. Имеется редактор шаблонов документов, позволяющий указать расположение текстовых блоков на странице, наличие определенных слов, некоторые особенности форматирования.

Поиск

  • Для формирования поисковых запросов разработан язык запросов, поддерживающий логические операторы «И», «ИЛИ», «НЕ», оператор расстояния между словами, оператор отключения морфологии. В качестве элементов запроса могут выступать как обычные слова, так и объекты. 
  • При поиске значения атрибутов документов могут использоваться фильтры. Примеры фильтров:
  1. диапазон времени;
  2. рубрики, темы, тип документа;
  3. дополнительные атрибуты исходного текста.
  • В результате запроса включается фрагмент найденного текста, содержащий вхождение искомых слов, а также сохраненные атрибуты текста. Доступен просмотр полного текста документа с многоцветной подсветкой слов и объектов и возможностью навигации между ними.

Пользовательский интерфейс

Система предоставляет различные способы реализации пользовательского интерфейса: web-интерфейс, различные варианты приложений для установки на рабочие места операторов, программный интерфейс.

Возможности интеграции

Возможна интеграция системы текстового анализа с другими продуктами компании на основе:

  • Поступления данных на обработку;
  • Использования результатов поисковых запросов для решения аналитических задач.

Листовка "Виток-TEXT" (pdf)