Чтобы посмотреть этот PDF файл с форматированием и разметкой, скачайте его и откройте на своем компьютере.
Химия
(
охрана окружающей среды
)
Информационные
технологии
в химии
А. А. Рагойша
Лекция 2
•
База данных (
database)
-
упорядоченный информационный массив,
состоящий из стандартных блоков.
Классификация по типу содержимого:
текстовые,
числовые,
формульные,
...
Текстовые базы данных
Структура базы данных
(
с точки зрения пользователя)
•
Запись (
record)
-
стандартный
блок информации
•
Поле (
field)
-
смысловой
фрагмент
записи
Поля:
текстовые,
числовые
и др.
Запись в каталоге библиотеки
•
Поисковая программа
(
имеет страницу с
поисковым бланком
,
предназначенным для формулирования
запроса
•
Запрос (
query)
-
поисковое задание, содержащее поисковые термины
и инструкцию по их интерпретации программой
Пример запроса:
натрий
Поиск
-
не по смыслу
, а
по факту наличия
термина!
Заполняем
поисковый бланк:
Поисковая программа ищет в своей базе данных те
записи, в которых присутствует слово
натрий
Список
обнаруженных
записей
выводится на
экран
Синтаксис запроса
в текстовых базах данных
Нет стандартного синтаксиса запроса
.
У каждой программы
свои
правила.
Иногда
правила совпадают
(но необязательно, что полностью).
Бывает, что некоторые элементы
разными поисковыми программами
воспринимаются
с точностью до наоборот
.
Логические (Булевы) операторы
•
AND
&
, ...
натрий
AND
ка
лий
•
OR
|
, ...
натрий
OR
калий
•
NOT
-
,
(andnot, and not, but not)
натрий
NOT
калий
Оператор по умолчанию (
default operator
)
Пример:
Обе записи равнозначны, есл
и
AND
–
по умолчанию:
натрий
AND
ка
лий
натрий
ка
лий
варианты
обозначений
Порядок выполнения операций
•
Сначала:
NOT
и
AND
, затем:
OR
Если нужно, порядок меняют круглыми скобками
Пример:
Найти записи, в которых:
обязательно присутствует
натрий
или
калий
и
обязательно присутствует
фосфат
или
силикат
Правильно:
(натрий
OR
калий)
AND
(фосфат
OR
силикат)
Неправильно:
натрий
OR
калий
AND
фосфат
OR
силикат
Операторы расстояния
-
1
•
Кавычки
Пример:
"фосфат натрия"
два алгоритма:
фраза из 2 слов
или
строка из 13 символов
"фосфат
_
натрия"
≠
"фосфат
_ _
натрия"
(символом подчеркивания обозначен пробел)
Операторы расстояния
-
2
•
WITH/n
,
NEAR/n
(
W/n, N/n, WITH, ...)
Пример:
ааа
WITH/3
ббб
ааа ббб
(1)
извлекаются
ааа ввв ббб
(2)
ааа ввв ггг ббб
(3)
не извлекаются
ааа ввв ггг ддд ббб (4)
Пример:
ааа
W/1
ббб
извлекается
ааа ббб
не извлекается
ббб ааа
ааа
N/1
ббб
извлекаются
ааа ббб
ббб ааа
Шаблон
-
1
*
("звездочка")
заменяет
любое число
символов ( в т. ч. нулевое)
Примеры:
фосфат*
фосфат, фосфатами, фосфатирование, ...
хлор*
хлор, хлорид, ...
но
: хлорофилл
*фосфат
фосфат,
ди
фосфат,
поли
фосфат, ...
Wildcard. Truncation (right
-
hand, left
-
hand)
Шаблон
-
2
? (вопросительный знак)
заменяет
один
символ
Пример:
бут?н
бут
а
н, бут
е
н, бут
и
н,
бут
о
н
Как правило
:
При шаблоне оставлять не менее трех букв.
Не использовать шаблон внутри кавычек.
Шаблон увеличивает количество
информационного мусора в результатах поиска
Stemming
•
Stemming
–
режим работы поисковой программы, при котором
происходит
учет грамматических форм
терминов
(
учет морфологии
)
Пример:
фосфат
фосфат, фосфатами, фосфатный, ... (полифосфат
-
?)
Пример:
write
write, writes, writing, wrote
Не
проводить
stemming:
"фосфатами"
Стоп
-
слова
•
Стоп
-
слова (
stopwords)
-
слова, которые при поиске не учитываются.
Это слова, не несущие самостоятельной
смысловой нагрузки, но особенно часто
встречающиеся в тексте:
предлоги, союзы, артикли и т. п.
Пример:
The Analyst
Включить стоп
-
слово в поиск:
"
The Analyst
"
Регистр букв
•
Абсолютное большинство поисковых программ
нечувствительно к регистру букв
–
для них
строчные и заглавные
буквы в запросе
равнозначны
.
Пример:
фосфат
AND
силикат
фосфат
and
силикат
фОсФаТ
aNd
СиЛиКаТ
годится любой вариант
Указание поля поиска
•
Поиск можно сделать более эффективным, если
проводить его не по записям в целом, а только по
избранным полям.
Для этого в запросе рядом с поисковым термином
указывают код соответствующего поля.
Коды полей в разных базах данных
–
разные.
Примеры:
in/
black and
ttl/
phosphate
in/
black and phosphate
фосфат
Поисковый бланк
-
1
•
Простейший
, Basic, Quick, Simple
•
Расширенный
, Advanced, Expert
Класс
ификация условна
–
в рамках определенной
базы данных.
Обычно так
ие бланки
называют
Quick Search
Поисковый бланк
-
2
Пример
б
ланка
Basic Search
:
Поиск по двум разным полям; использование
булевых операторов
;
выбор временного интервала.
Поисковый бланк
-
3
Пример
б
ланка
Advanced Search
:
Элементы бланка
•
Графа бланка
(редактируемая графа, редактируемое поле).
•
Список.
•
Меню (выпадающий список).
•
Переключатель.
•
Выключатель.
•
Текстовые пояснения.
•
Ссылка на иной бланк.
•
Ссылка на блок инструкций.
•
Кнопка начала поиска.
Список результатов поиска
Пользователь получает результаты поиска в форме
списка обнаруженных документов.
Список может быть сформирован:
-
по алфавиту,
-
в хронологическом порядке
(прямом или обратном),
-
по релевантности.
Релевантность
Релевантность документа
–
степень соответствия его поисковому заданию.
При расчете релевантности учитываются:
•
количество поисковых терминов в документе,
•
расстояние между ними в тексте,
•
число упоминаний каждого из них,
•
их плотность,
•
их порядок расположения,
•
их место
–
в начале записи или в конце,
•
и др.
Поисковые термины
Отбирая поисковые термины, учитываем, что:
•
Поисковый термин
–
это слово,
которое
присутствует
в искомом документе.
•
Поисковый термин должен быть достаточно
специфичным
по своему смыслу,
по крайней мере, в используемой базе данных.
•
Одно и то же понятие может быть выражено
несколькими
способами.
•
Разные
научные школы
могут пользоваться разными
обозначениями одного и того же понятия.
Помогает при отборе:
•
Предварительное изучение литературы
•
Использование алфавитных указателей
(если они есть в базе данных)
Структура научной работы
•
Название (
Title)
Пример:
Электрические свойства
I
n
S
e,
интеркалированного магнием
•
Реферат
(Abstract)
Монокристаллы селенида индия
интеркалированы магнием из
паровой фазы. Исследованы
температурные зависимости ...
Проведено сравнение
электрических характеристик ...
Установлено, что ...
•
Полный текст (
Full text)
.....................
.....................
Последовательность ведения
тематического поиска
1.
По полю "Названия"
2.
По полю "Рефераты"
3.
По полным текстам документов
Синтаксис запроса
в поисковых системах
Особенности работы поисковых систем
Предназначены
для широкой публики
Упростить
взаимодействие с системой
Синтаксис
упрощен (особенно внешне)
Нечеткость запроса (
и это обоснованно
)
Избыточность извлекаемой информации
Огромный список результатов поиска
Главное
–
не величина списка, а
качество сортировки
Релевантность
-
2
Расчет
ранга
веб
-
страницы
–
т.е. ее авторитетности
Сколько ссылок с других страниц на данную?
Каков ранг ссылающихся страниц?
Расчет
релевантности
:
Вклад 1: поисковые термины на странице
Вклад 2: ранг страницы
Релевантность страницы в списке результатов поиска
+
=
PageRank
•
PageRank
–
алгоритм
поисковой
системы
,
приписывающий численный
вес каждому элементу
гипертекстового массива.
(
Детали не разглашаются)
•
http://en.wikipedia.org/wiki/Pagerank
•
Визуализация в
логарифмической
шкале
от 0
/
10 до 10
/10
•
(Google Toolbar)
Бланки
•
Простейший
–
Усложненный
Простейший
–
одна графа
•
На простейшем бланке:
предполагается, что запрос
–
перечень слов, разделенных пробелами
•
Оператор по умолчанию:
AND
–
чаще всего
OR
–
редко
Логические операторы
•
Операторы отображать ЗАГЛАВНЫМИ буквами
(если строчными
–
стоп
-
слово)
•
AND, + ,
&
натрий
AND
калий
Обычно достаточно
:
натрий
&
калий
натрий калий
натрий
+
калий
•
OR, |
, ...
натрий
OR
калий
натрий
|
калий
•
NOT,
-
натрий
NOT
калий
натрий
-
калий
без
пробела!
Синтаксис
-
2
•
Stemming
По
-
разному, чаще
-
да
•
Стоп
-
слова
По
-
разному, чаще
-
да
•
"текст в кавычках"
разрешен всеми системами
Но разный подход к:
stemming
стоп
-
словам
Регистр букв
•
Нечувствительны к регистру
-
большинство
•
Частичная чувствительность
–
иногда
Пример
–
Яндекс
•
при запросе
азот
извлекаются
все
документы
•
при запросе
!Азот
извлекаются документы со словом
азот
,
начинающимся с
Заглавной
буквы
Поиск по полям документов
•
Возможен, но полезность ограниченна
основная часть информации на веб
-
странице
находится в одном самом большом поле
•
Синтаксис у разных систем
-
разный
Пример
:
найти документы, содержащие слово
фосфат
в своем названии
Запрос:
intitle:
фосфат
Google, Yahoo!
,
Bing
title [фосфат]
Яндекс
Усложненный бланк
+
•
Несколько граф
•
Выключатели, переключатели и т. д.
для назначения параметров поиска
•
Наглядность при формулировании заданий
средней и выше чем средней сложности
-
•
На усложненном бланке можно реализовать
не все синтаксические возможности данной
поисковой программы
www.google.com/advanced_search
www.google.com/advanced_search
yandex.ru/search/advanced