Project

General

Profile

Автоматический импорт новостей

Вся настройка импорта новостей выполняется на странице Автоматический импорт новостей приложения Агент МБД-Импорт.

dbimport_mainicon.PNG

dbimport_news.PNG

Автоматический импорт новостей программой Агент МБД-Импорт производится двумя способами - из каталогов файловой системы и с почтовых серверов по протоколу POP3. В процессе импорта программа создает новые текстовые элементы МБД, содержащие текстовый новостной материал. При импорте из почты возможно создание звуковых элементов при получении писем со звуковыми аттачментами. Вне зависимости от источника новости элементу МБД могут быть присвоены значения различных атрибутов, которые могут быть использованы для автоматического разделения материала при отображении и поиске. Для назначения атрибутов, указания категории и др. действий, выполняемых при импорте, используется гибкая система правил на основе текстовых фильтров.

Импорт новостей осуществляется из множества настроенных источников новостных сообщений. Рассмотрим оба типа источников.

Импорт новостей из почты (POP3)

При импорте программа получает все сообщения с указанного почтового ящика и распределяет их в МБД в соответствии с настройками и результатами фильтрации. При работе с несколькими новостными агентствами рекомендуется распределить поток входящих сообщений на несколько ящиков, таким образом, чтобы на один ящик приходили сообщения только от одного агентства. Это облегчит последующую настройку параметров приема материала и системы фильтров.

Обратите внимание, что программа удаляет письмо с сервера после успешного получения. Если вы планируете хранить входящие сообщения на сервере, то вам необходимо настроить форвардинг почты между ящиком, хранящим сообщения и ящиком, с которого* DB Import* будет получать новости (или настроить соответствующим образом ваш почтовый сервер).

Крайне рекомендуется использовать данное приложение для работы с внутренним почтовым сервером т.к. Агент МБД-Импорт не имеет механизма защиты от нежелательных или вредоносных сообщений, а также "глубоких" сетевых настроек, например, для связи с почтовыми серверами через proxy-сервера и пр.

Настройка

Окно настройки отрывается при описании нового источника, который создается нажатием кнопки Добавить POP3 или при редактировании свойств уже существующего источника - при двойном щелчке на колонках Название и Адрес в списке источников.

dbimport_set_pop.PNG

На окне свойств источника присутствуют следующие параметры:

  1. Название источника - название, с которым он будет отображаться в списке источников.
  2. Адрес сервера - адрес POP3-сервера, по аналогии с настройкой любой почтовой программой, например: smtp.mail.ru
  3. Порт- порт на котором сервер "слушает" подключения, обычно 110
  4. Логин, пароль и подтверждение пароля - соответственно, указать необходимые для подключения к желаемому ящику.
  5. Кодировка текста (Default message charset) - выбрать один из вариантов:
    1. Автоматически- автоматическое определение кодировки русских символов. Это самый распространенный вариант.
    2. KOI-8- русский текст в кодировке KOI-8
    3. Cyrillic Windows-1251 - русский текст в кодировке Cyrillic-1251 (Стандарт байтовой кодировки русского текста для OS Windows)
  6. Перекодировать в (Convert to charset). Выбрать один из вариантов:
    1. Не изменять - в случае, если входная кодировка совпадает с желаемой.
    2. Cyrillic Windows-1251 в случае, если входные сообщения содержат русский текст и кодировка отличается от Windows-1251.
  7. Получать аудио прикрепления. Необходимо установить этот флаг, если требуется сохранить письма с прикрепленным звуковым файлом в виде звуковых элементов МБД. Текст в этой ситуации сохраняется в поле комментарий.
  8. Группа Сохранение сообщений (Message saving)
    1. Сохранять в случае ошибок (Save message causing errors) - если установлено, то программа будет сохранять сообщения, вызывающие ошибки обработки для последующего анализа. По умолчанию - установлен.
    2. Сохранять все сообщения (Save all messages) - установка флага ведет к сохранению вообще всех входящих сообщений. Используется только при настройке или устранении проблем. При нормальной работе должен быт снят.
    3. Путь для сохранения сообщений (Path to store messages) - можно указать альтернативный каталог для сохранения сообщений. По умолчанию, если ничего не указано, то сообщения сохраняются в каталоге каталог установки DBimport.exe>\MESSAGES

Импорт из файловой структуры

Данная возможность позволяет забирать информацию из файлов, появляющихся в каталогах файловой системы. Такой способ импорта используется при наличии внешних систем, выполняющих импорт новостного материала и его последующее сохранение в виде файлов, которые импортирует DB Import. При использовании данного способа импорта можно подключать модули-препроцессоры, позволяющие вести импорт материала из файлов практически любого формата.

Рекомендуется разделить получение материала разного типа (или поступающего от разных агентств) на несколько независимых источников вместо одного, общего для всех. Это облегчит последующую настройку параметров и управление денными источниками.

Обратите внимание, что после импорта импортированный файл удаляется.

Настройка

Окно настройки отрывается при описании нового источника, который создается нажатием кнопки Добавить папку (Add FOLDER) или при редактировании свойств уже существующего источника - при двойном щелчке на колонках Название и Адрес в списке источников.

dbimport_set_folder.PNG

На окне свойств источника присутствуют следующие параметры:

  1. Название источника - название, с которым он будет отображаться в списке источников.
  2. Каталог (Folder name) - каталог, из которого будут считываться файлы.
  3. Маска имени файла (File mask) - шаблон имени файла. Из каталога будут импортироваться только файлы, удовлетворяющие шаблону. По умолчанию, если не указано, используется маска *.txt
    Допускается использование специальных символов:
    1. ? - один любой, обязательно присутствующий, символ
    2. * - несколько (0 или более) любых символов подряд.
  4. Препроцессор (Preprocessor). В этом поле указывается путь к библиотеке препроцессора.
    Препроцессор используется для чтения файлов формата, отличного от "стандартного". Под стандартным понимается обычный текстовый файл. Если файл имеет другой формат - то используется препроцессор. Например, существуют препроцессоры для чтения новостных файлов форматах:
    1. Reuters XML
    2. Deutsche Presse Agentur (DPA)
  5. Кнопка *Test *позволяет проверить работоспособность указанной библиотеки.
  6. Кодировка сообщения (Message encoding) - необходимо выбрать кодировку русских символов, если она отличается от стандартной (Cyrillic Windows-1251).
  7. Первая строка - название (Move first body line to name)- если установлен, что названием элемента МБД станет первая строка текста, в противном случае будет использован фрагмент текста из начала сообщения, порядка 60 символов.

Общая настройка

Все источники имеют общие, не зависящие от их типа, параметры.

Тип и категория

Сразу после заполнения окна свойств при создании источника будет предложено выбрать тип материала - раздел МБД, в который будут помещаться новые элементы. Позже его можно сменить, выполнив двойной щелчок на колонке Раздел фонограмм.

Категория, в которой будут создаваться элементы, полученные от данного источника, определяется отдельно. Для этого необходимо выполнить двойной щелчок на колонке Категория в списке источников. Будет предложено меню со списком существующих категорий и вариантами автоматического формирования имени категории:

  1. Без категории. Элементы будут создаваться в корневой категории. Т.е. как "неприсвоенные" ни к одной категории.
  2. По имени отправителя.
    Для почтовых сообщений в качестве названия категории будет использовано имя отправителя, как оно указано в письме.
    Для файловых сообщений отправитель - это название источника, но, в случае использования препроцессора, возможно получение правителя в процессе разбора сообщения.
  3. По теме сообщения.
    Для почтовых сообщений в качестве названия категории будет использована тема (subject) письма.
    Для файловых сообщений тема извлекается только препроцессором. Соответственно, можно указывать, только если препроцессор в состоянии считать тему из файла.
  4. По дате отправления (YYY-MM-DD) и По году и месяцу отправления (YYYY-MM)
    Для почтовых сообщений имя категории будет сформировано по дате отправления письма.
    Для файлов - аналогично, но по дате считывания файла.
  5. Создать категорию…
    Можно указать название категории в виде строки. Категория будет создана, если ее еще нет в МБД.

Категория, в которую будет сохранен конкретный элемент, может также быть изменена при помощи Фильтров.

Атрибуты

Каждому добавляемому в МБД элементу могут быть присвоены значения атрибутов. Могут использоваться значения стандартных атрибутов Категория, Автор, Исполнитель и пользовательских - создаваемых пользователем. Существуют два самых часто используемых пользовательских атрибута, используемых при работе с импортом новостей - Агентство и Приоритет. Атрибут Агентство содержит список новостных агентств, поставляющих информацию, а атрибут Приоритет используется для обозначения важности сообщения. Эти атрибуты используются Лентой новостей при отображении материала.

Настройка атрибутов, присваиваемых всем элементам, полученным из одного источника, производится в списке источников. Для необходимо выполнить двойной щелчок на колонке списка с названием Атрибуты.

Кроме этого, для конкретного элемента набор присваиваемых атрибутов может быть изменен при помощи Фильтров

Фильтры

Фильтр- это совокупность правил проверки и действий, выполняемых в случае успешной проверки этих правил для элемента, добавляемого в МБД. Фильтров может существовать несколько, в этом случае они будут проверяться в указанной последовательности.

Для создания новых и редактирования существующих фильтров необходимо нажать кнопку Фильтры. Откроется окно Набор фильтров.

dbimport_filters.PNG

Для создания нового фильтра необходимо нажать кнопку dbimport_new.PNG после чего в правой части окна станет доступным редактирование параметров фильтра.
Сначала дадим фильтру название в поле Название- Срочные новости.

После этого перейдем к редактированию содержимого фильтра, проще это описать примером:

Нажимаем кнопку Добавить условие. Будет создано условие "Отправитель содержит любое из [ ]". Теперь необходимо изменить условие, указав требуемые параметры.

Щелкнув на слове Отправитель левой кнопкой выберем из меню интересующее нас поле - Тема. Аналогично, щелкнув на строке условия "содержит любое из" можно изменить условие. Но оставим его равным "содержит любое из". В поле ввода после строки условия введем интересующие нас ключевые слова, разделяя их пробелом: Важно Срочно Молния. Добавим еще одно условие, еще раз нажав кнопку Добавить условие. Условие будет добавлено к предыдущему с условием выполнения И. Щелкнув по И заменим его на ИЛИ, оставим поле *Сообщение *и изменим условие на "содержит все" и в поле ввода укажем Важное сообщение.

Теперь определим действия, выполняемые в данном случае. Перейдем на закладку Действия и выберем из списка возможных действий требуемое, например, Присвоить атрибуты и нажмем кнопку* Добавить действие*. В открывшемся окне выберем интересующие нас значения атрибутов, например, значение Срочно атрибута Приоритет.

Таким образом мы сформировали условие: Если в поле Тема присутствует любое из слов Важно Срочно или Молния или в самом сообщение встречается строка "Важное сообщение" то данному сообщению будет присвоено значение Срочно атрибута Приоритет.

В дополнении можно на закладке Параметры установить флаг Продолжить фильтрацию. В этом случае, если условия фильтра соблюдены и назначенные действия выполнены программа продолжит проверку элемента другими фильтрами. Если флаг снят - то, если условия данного фильтра выполняются, то проверка другими фильтрами осуществляться не будет. По умолчанию флаг снят.

Аналогичным образом можно создать требуемое множество фильтров, расположив их в том порядке, в котором должна происходить их проверка. Для перемещения фильтров в списке на окне Набор фильтров используются кнопки со стрелками, расположенные на панели инструментов.

То, какие фильтры будут участвовать в обработке сообщений от конкретного источника, определяется переключателем Используемые фильтры, расположенном под окном со списком источников. Переключатель позволяет установить режим работы фильтров для выделенного в списке источника.

Возможные варианты:

  1. Не использовать фильтры.
  2. Использовать все фильтры - все элементы, поступающие от данного источника, будут проверяться всеми существующими фильтрами в том порядке, в котором они присутствуют на окне набор фильтров.
  3. Использовать только выбранные фильтры - элементы буду проверяться только фильтрами, внесенными в список, расположенный справа от переключателя и в том порядке, в котором они в этот список включены.

Включение импорта новостей

Включение и выключение импорта из всех созданных источников производится кнопками Старт и Стоп, расположенными в верхней части окна.

dbimport_startstop.PNG

Если кнопки недоступны (серого цвета) - это означает невозможность выполнения данной операции. Кнопка Старт недоступна, если импорт уже запущен или нет соединения с МБД, кнопка Стоп недоступна, если импорт не запущен.
Для того, чтобы импорт включался автоматически при запуске программы, необходимо установить флаг Автоматически стартовать после запуска приложения.

В процессе импорта программа опрашивает источники периодически, период опроса указывается в поле Периодически проверять, расположенном под группой переключателей Использование фильтров.

Любой из источников можно временно отключить, не останавливая остальные - для этого достаточно мышью снять галочку, расположенную слева от имени источника в списке источников.

Хранение настроек

Все настройки импорта новостей хранятся в отдельном файле: DBImp_NEWS.ini, находящемся в том же каталоге, что и выполняемый модуль DB_Import.exe.

Add picture from clipboard (Maximum size: 742 MB)