ПРОСТОЙ СОФТ: АНАЛИЗ РЕЗУЛЬТАТОВ ПОИСКА Программа для извлечения с поисковых сайтов и

advertisement
ПРОСТОЙ СОФТ: АНАЛИЗ
РЕЗУЛЬТАТОВ ПОИСКА
Программа для извлечения
с поисковых сайтов и
анализа результатов поиска
1
Основные функции системы
Извлечение результатов поиска с
сайтов Google.ru, Yandex.ru,
Rambler.ru и Mail.ru в локальную
базу данных.
Анализ результатов поиска.
2
Преимущества системы
Автоматизация процесса извлечения
результатов поиска с сайтов в локальную базу
Эффективный анализ - удобные способы
сортировки и фильтрации данных
Возможность изменения структуры данных –
добавления таблиц и полей
3
Составляющие системы
Вкладка «Google.ru»
Вкладка «Yandex.ru»
Вкладка «Rambler.ru»
Вкладка «Mail.ru»
Вкладка «Анализ»
4
Рассмотрим подробнее
процесс работы
в системе
5
Общий порядок работы
Вы определяете для себя, какие данные Вы будете искать на
поисковых сайтах.
При помощи вкладок для извлечения осуществляется извлечение
данных в локальную базу.
Когда данные уже извлечены, но Вы еще не отключились от
Интернета, Вы можете заполнить поля GooglePageRank и Яндекс
тИЦ . Это поможет Вам при дальнейшем анализе «нужности» и
«полезности» каждого найденного сайта.
Дальнейшая работа осуществляется во вкладке «Анализ», где
данные из Интернета будут представлены в доступной для
использования форме, с возможностью сортировки, фильтрации,
а также скрытия/отображения различных параметров.
Если необходимо, можно включить многопользовательский
режим.
6
Извлечение данных
Принцип извлечения данных на всех вкладках поисковиков одинаков.
Необходимо зайти на нужную вкладку, ввести интересующие параметры поиска (поисковый
запрос), например, Туры на Мальту из Петербурга.
1.Заходим на
вкладку
5.Жмем кнопку
“Старт” –
начинается
извлечение
4.Задаем параметры
извлечения: таймаут
загрузки страниц и
количество
обрабатываемых
страниц
Следуем
указаниям в
строке-статусе
2.Жмем кнопку
“переход”
3.Вводим
поисковый
запрос
Кнопку “поиск”
на странице
нажимать НЕ
надо
7
Извлечение данных –
Google PR и Yandex тИЦ
После того, как результаты поиска
извлечены, но Вы еще подключены к
Интернет, можно выбрать пункт меню
“Заполнить Google PR”.
Программа пройдет по всем
найденным поисковиками сайтам и
извлечет для каждого значение
параметра Google PR (Google Page
Rank)- индекса популярности по
оценкам Google.
Аналогично можно поступить с
параметром Yandex тИЦ (тематический
Индекс Цитирования).
8
Построение аналитических полей
По извлеченным результатам поиска строятся аналитические поля. Программа как бы "читает"
результат поиска (ссылку на ресурс) и раскладывает все "по полочкам". Вы получаете строго
структурированную информацию.
Программа построила аналитические поля. Правый щелчок
мыши по названию любого поля выдает полный перечень
всех полей.
9
Занесение данных вручную
Можно просто вести базу данных, вводя информацию о сайтах с клавиатуры или
копируя их через буфер обмена..
Задаем редактирование в
отдельной форме
Жмем “Новая
запись”
Заносим информацию о сайте
10
Фильтрация данных
Для того чтобы показывать не все записи таблицы, а только удовлетворяющие определенным
критериям, используются фильтры.
Допустим нас интересуют только сайты с доменом 1 уровня ru, значением GooglePR больше или
равно 3, занимающие в результатах поиска позиции не ниже 30-ой.
Устанавливаем фильтры, в
соответствии с
оговоренными условиями.
Особую ценность
представляют параметры
GooglePR и Yandex тИЦ.
По их значению можно
отбирать действительно
значимые сайты.
В программе есть
возможность установки
фильтров по всем
операторам языка SQL
Находим 12 сайтов,
удовлетворяющих нашему
запросу
11
Свойства таблицы
Настроить интерфейс вкладки
Объявления можно при помощи
опции Свойства таблицы:
удобная настройка полей, которые
надо отображать.
возможность настроить цвет, которым
будут выделяться строки с
определенными значениями
определенных полей
выбор полей, по которым будет
отображаться дерево
настройка подчиненных вкладок с
подчиненными таблицами
12
Дерево
Когда необходимо отобрать данные с одинаковыми значениями полей, вместо таблицы с
фильтрами удобнее использовать дерево. Предварительно в свойствах таблицы, в таком
случае, надо установить, по каким полям дерево будет строиться.
отображаем дерево
при помощи
соответствующей
кнопки панели
инструментов
выбираем нужную
ветвь дерева, и
отображаются записи
только с выбранным
значением поля, по
которому построено
дерево
13
Поиск по таблице
Допустим, Вы хотите найти определенный домен 2-го уровня, например, travel.ru
Скрываем таблицу с
фильтрами и дерево,
нажав на
соответствующие
кнопки панели
инструментов, чтобы
больше данных было в
области видимости
Сортируем данные
простым кликом по
полю Домен 2 уровня
Нажав кнопку поиска на
панели инструментов
ищем travel.ru в поле
Домен 2 уровня
14
Изменение структуры
Возможно, для работы Вам понадобятся свои поля для работы с информацией о
сайтах. Или, наоборот: некоторые поля, предусмотренные разработчиком, Вами
точно использоваться не будут.
Большое преимущество программы состоит в том, что структуру данных можно
легко изменять согласно требований пользователя.
Вы можете:
Удалять ненужные поля и таблицы
Скрывать/отображать поля и таблицы
Создавать новые поля и таблицы
15
Удаление / скрытие полей
Контекстное меню
открывается простым
щелчком правой
кнопкой мыши по
заголовкам полей
Скрытие/отображение
полей происходит
путем проставления
галочек напротив
полей, которые должны
быть видны
Также при помощи
данного контекстного
меню можно добавить
новое поле, удалить
выбранное поле или
посмотреть его
свойства.
16
Добавление нового поля
При добавлении нового поля
предоставляются следующие
возможности:
возможность выбора
типа данных
возможность создания
вычисляемых полей на основе
sql (например, можно создать
поле с формулой "[Размер
страницы, Kb] /
[GooglePageRank]" Чем
меньше значение такого
параметра, тем "лучше" сайт
явное задание
значений для выбора из
выпадающего списка
17
Импорт данных
Вы можете импортировать объявления из какихнибудь других источников. Формат - текстовый CSVфайл или файл MS Excel, можно задать разделитель
полей. Импортировать можно любую информацию. Это
могут быть данные из каких-либо каталогов сайтов и т.п.
Вы сами выбираете нужную таблицу базы данных
(сначала ее можно создать) и задаете соответствие
полей откуда какую информацию копировать. Во время
сопоставления необходимо помнить о типе полей.
18
Экспорт данных
Экспортировать также можно абсолютно любую
таблицу. Для этого нужно нажать одну из четырех
кнопок для экспорта на панели инструментов (в
Word, в Excel, в CSV или в HTML).
В MS Exel экспорт выполняется сразу без
дополнительных вопросов.
Для экспорта в текстовый формат CSV выдается
форма, где вы выбираете целевой файл, задаете
разделитель полей. Можно задавать любой
символ-разделитель. Также можно экспортировать
названия (заголовки) полей первой строчкой.
Экспортируются только видимые поля.
Экспорт в MS Word предназначен для создания
выходных документов (отчетов) для одной
текущей записи таблицы. Создается шаблонный
документ MS Word.
19
Групповое обновление
По окончании извлечения и построения
аналитических полей, чтобы не загромождать
некоторые поля излишней информацией,
можно воспользоваться опцией Групповое
обновление.
Что касается загромождения полей
информацией, можно, например, в поле
Поисковый сайт заменить названия сайтов с
http://www.yandex.ru на YANDEX и т.д.
Есть возможность не изменить
выбранные значения, а удалить
их
Есть возможность посмотреть и
изменить sql-инструкцию
обновления
Возможность задания
нескольких условий отбора
записей при помощи различных
sql-операторов
20
Удаление дублей
По окончании извлечения результатов будет полезно
удалить дублированные результаты, оставляя в
локальной базе данных только последнюю версию
информации о сайте.
Причем, есть возможность удаления дублей по полю
Домен 2 уровня и по полю Домен 3 уровня.
Вы можете войти в режим настройки инструкции
SQL, которая будет выполнена. Например, вы
можете не удалять дублированные объявления, а
только лишь отметить их как "Мертвые" (или как
"Избранные"), вероятно, для последующего удаления
вручную. В этом случае замените SQL-инструкцию с
этой (здесь речь о доменах 2 уровня)
DELETE FROM [tblMain] T1 WHERE EXISTS
(SELECT * FROM [tblMain] T2 WHERE
(T2.Domain2LevelUrl = T1.Domain2LevelUrl AND
T2.Domain2LevelUrl > '') AND (T2.ID < T1.ID))
на эту (легко заметить, что меняется только
первая строчка инструкции)
UPDATE [tblMain] T1 SET [Dead] = 1 WHERE EXISTS
(SELECT * FROM [tblMain] T2 WHERE
(T2.Domain2LevelUrl = T1.Domain2LevelUrl AND
T2.Domain2LevelUrl > '') AND (T2.ID < T1.ID))
21
Если вы хотите установить
данную программу...
22
Установка
Для установки программы на вашем компьютере необходимо запустить файл
FindResults.msi, который входит в состав инсталляционного пакета.
Во время установки предлагается указать папку, в которую будет установлено
приложение. По умолчанию это C:\Program Files\FindResults.
Минимальные требования к компьютеру:
операционная система Windows 95, 98, NT, 2000, XP;
процессор с частотой 100 MGz и более;
оперативная память 16 Mb и более;
жесткий диск (используется около 3Мб с пустой базой
данных);
23
Техническая поддержка
Техническая поддержка осуществляется по электронной почте. Пожалуйста, пишите нам
по адресу support@simple-soft.ru.
Полезным будет сообщить конфигурацию вашего компьютера и операционную систему (не
забудьте указать язык), если у вас возникает системная ошибка, и другие уместные
настройки.
Но, прежде всего, убедитесь, что у вас установлена последняя версия программы, посетив
сайт программы http://www.simple-soft.ru
Ваше мнение может влиять на то, как будут выглядеть следующие версии программы.
Если у вас есть идеи по улучшению программы, присылайте нам письма с
предложениями.
С уважением,
Абрамов Иван Валерьевич
программист и руководитель компании "Простой софт"
Россия, Санкт-Петербург
Спасибо за внимание!
24
Download