(прямом или обратном), — по релевантности. Релевантность. Синтаксис упрощен (особенно внешне) Нечеткость запроса (и это обоснованно) Избыточность извлекаемой информации.


Чтобы посмотреть этот PDF файл с форматированием и разметкой, скачайте его и откройте на своем компьютере.
Химия

(
охрана окружающей среды
)





Информационные
технологии

в химии


А. А. Рагойша



Лекция 2





База данных (
database)
-


упорядоченный информационный массив,

состоящий из стандартных блоков.




Классификация по типу содержимого:






текстовые,




числовые,





формульные,







...


Текстовые базы данных

Структура базы данных

(
с точки зрения пользователя)



Запись (
record)
-


стандартный

блок информации



Поле (
field)
-


смысловой

фрагмент

записи



Поля:

текстовые,

числовые

и др.

Запись в каталоге библиотеки





Поисковая программа

(









имеет страницу с
поисковым бланком
,






предназначенным для формулирования







запроса




Запрос (
query)
-


поисковое задание, содержащее поисковые термины


и инструкцию по их интерпретации программой







Пример запроса:


натрий



Поиск
-

не по смыслу
, а
по факту наличия

термина!

Заполняем

поисковый бланк:

Поисковая программа ищет в своей базе данных те
записи, в которых присутствует слово
натрий

Список
обнаруженных
записей
выводится на
экран

Синтаксис запроса

в текстовых базах данных

Нет стандартного синтаксиса запроса
.


У каждой программы
свои

правила.


Иногда

правила совпадают


(но необязательно, что полностью).


Бывает, что некоторые элементы

разными поисковыми программами

воспринимаются
с точностью до наоборот
.

Логические (Булевы) операторы



AND



&

, ...

натрий
AND

ка
лий




OR




|

, ...


натрий
OR
калий



NOT



-

,
(andnot, and not, but not)

натрий
NOT
калий



Оператор по умолчанию (
default operator
)


Пример:

Обе записи равнозначны, есл
и
AND



по умолчанию:





натрий
AND

ка
лий





натрий
ка
лий

варианты
обозначений

Порядок выполнения операций



Сначала:
NOT
и
AND
, затем:
OR

Если нужно, порядок меняют круглыми скобками


Пример:





Найти записи, в которых:


обязательно присутствует
натрий

или
калий

и



обязательно присутствует
фосфат

или
силикат



Правильно:

(натрий
OR
калий)
AND

(фосфат
OR
силикат)


Неправильно:

натрий
OR
калий
AND

фосфат

OR
силикат


Операторы расстояния

-

1



Кавычки


Пример:


"фосфат натрия"






два алгоритма:






фраза из 2 слов

или






строка из 13 символов






"фосфат
_
натрия"




"фосфат
_ _
натрия"


(символом подчеркивания обозначен пробел)

Операторы расстояния
-

2



WITH/n

,
NEAR/n


(
W/n, N/n, WITH, ...)




Пример:


ааа
WITH/3
ббб











ааа ббб





(1)




извлекаются




ааа ввв ббб




(2)











ааа ввв ггг ббб



(3)



не извлекаются




ааа ввв ггг ддд ббб (4)






Пример:


ааа
W/1
ббб



извлекается




ааа ббб





не извлекается



ббб ааа






ааа
N/1
ббб










извлекаются





ааа ббб












ббб ааа



Шаблон
-

1

*

("звездочка")

заменяет
любое число

символов ( в т. ч. нулевое)




Примеры:


фосфат*

фосфат, фосфатами, фосфатирование, ...






хлор*



хлор, хлорид, ...







но
: хлорофилл





*фосфат

фосфат,
ди
фосфат,
поли
фосфат, ...



Wildcard. Truncation (right
-
hand, left
-
hand)

Шаблон
-

2

? (вопросительный знак)


заменяет
один

символ






Пример:


бут?н

бут
а
н, бут
е
н, бут
и
н,

бут
о
н


Как правило
:


При шаблоне оставлять не менее трех букв.

Не использовать шаблон внутри кавычек.


Шаблон увеличивает количество

информационного мусора в результатах поиска

Stemming



Stemming


режим работы поисковой программы, при котором
происходит
учет грамматических форм

терминов

(
учет морфологии
)





Пример:


фосфат

фосфат, фосфатами, фосфатный, ... (полифосфат
-

?)





Пример:


write

write, writes, writing, wrote



Не

проводить
stemming:






"фосфатами"

Стоп
-

слова


Стоп
-
слова (
stopwords)
-



слова, которые при поиске не учитываются.






Это слова, не несущие самостоятельной


смысловой нагрузки, но особенно часто


встречающиеся в тексте:



предлоги, союзы, артикли и т. п.





Пример:





The Analyst



Включить стоп
-
слово в поиск:





"
The Analyst
"

Регистр букв


Абсолютное большинство поисковых программ
нечувствительно к регистру букв


для них


строчные и заглавные

буквы в запросе

равнозначны
.




Пример:







фосфат
AND
силикат





фосфат
and
силикат





фОсФаТ
aNd
СиЛиКаТ








годится любой вариант

Указание поля поиска


Поиск можно сделать более эффективным, если
проводить его не по записям в целом, а только по
избранным полям.



Для этого в запросе рядом с поисковым термином
указывают код соответствующего поля.


Коды полей в разных базах данных


разные.




Примеры:







in/
black and
ttl/
phosphate





in/
black and phosphate





фосфат
pdf




Поисковый бланк

-

1



Простейший
, Basic, Quick, Simple



Расширенный
, Advanced, Expert


Класс
ификация условна


в рамках определенной

базы данных.

Обычно так
ие бланки

называют
Quick Search

Поисковый бланк

-

2


Пример

б
ланка


Basic Search
:




Поиск по двум разным полям; использование
булевых операторов
;

выбор временного интервала.

Поисковый бланк

-

3


Пример

б
ланка


Advanced Search
:

Элементы бланка


Графа бланка

(редактируемая графа, редактируемое поле).


Список.


Меню (выпадающий список).


Переключатель.


Выключатель.


Текстовые пояснения.


Ссылка на иной бланк.


Ссылка на блок инструкций.


Кнопка начала поиска.


Список результатов поиска

Пользователь получает результаты поиска в форме
списка обнаруженных документов.


Список может быть сформирован:


-

по алфавиту,

-

в хронологическом порядке



(прямом или обратном),

-

по релевантности.

Релевантность

Релевантность документа



степень соответствия его поисковому заданию.



При расчете релевантности учитываются:


количество поисковых терминов в документе,


расстояние между ними в тексте,


число упоминаний каждого из них,


их плотность,


их порядок расположения,


их место


в начале записи или в конце,


и др.

Поисковые термины



Отбирая поисковые термины, учитываем, что:


Поисковый термин


это слово,

которое
присутствует

в искомом документе.


Поисковый термин должен быть достаточно
специфичным

по своему смыслу,

по крайней мере, в используемой базе данных.


Одно и то же понятие может быть выражено
несколькими

способами.


Разные
научные школы

могут пользоваться разными
обозначениями одного и того же понятия.






Помогает при отборе:


Предварительное изучение литературы


Использование алфавитных указателей

(если они есть в базе данных)


Структура научной работы


Название (
Title)


Пример:




Электрические свойства
I
n
S
e,





интеркалированного магнием



Реферат

(Abstract)







Монокристаллы селенида индия





интеркалированы магнием из





паровой фазы. Исследованы





температурные зависимости ...





Проведено сравнение











электрических характеристик ...





Установлено, что ...



Полный текст (
Full text)







.....................







.....................

Последовательность ведения
тематического поиска

1.
По полю "Названия"


2.
По полю "Рефераты"


3.
По полным текстам документов


Синтаксис запроса

в поисковых системах

Особенности работы поисковых систем


Предназначены
для широкой публики



Упростить
взаимодействие с системой





Синтаксис
упрощен (особенно внешне)






Нечеткость запроса (
и это обоснованно
)







Избыточность извлекаемой информации



Огромный список результатов поиска


Главное


не величина списка, а
качество сортировки


Релевантность
-

2

Расчет
ранга

веб
-
страницы


т.е. ее авторитетности




Сколько ссылок с других страниц на данную?



Каков ранг ссылающихся страниц?



Расчет
релевантности
:



Вклад 1: поисковые термины на странице


Вклад 2: ранг страницы



Релевантность страницы в списке результатов поиска


+

=

PageRank


PageRank



алгоритм

поисковой

системы
Google
,

приписывающий численный

вес каждому элементу

гипертекстового массива.



(
Детали не разглашаются)


http://en.wikipedia.org/wiki/Pagerank

















Визуализация в












логарифмической













шкале














от 0
/
10 до 10
/10















(Google Toolbar)

Бланки



Простейший


Усложненный


Простейший


одна графа




На простейшем бланке:


предполагается, что запрос




перечень слов, разделенных пробелами



Оператор по умолчанию:




AND


чаще всего


OR



редко

Логические операторы



Операторы отображать ЗАГЛАВНЫМИ буквами





(если строчными


стоп
-
слово)


AND, + ,

&



натрий
AND
калий



Обычно достаточно
:


натрий
&
калий




натрий калий




натрий
+
калий






OR, |

, ...


натрий
OR
калий

натрий
|
калий


NOT,
-


натрий
NOT
калий


натрий
-
калий


без

пробела!


Синтаксис
-

2


Stemming


По
-
разному, чаще
-

да



Стоп
-
слова


По
-
разному, чаще
-

да



"текст в кавычках"


разрешен всеми системами




Но разный подход к:






stemming






стоп
-
словам




Регистр букв


Нечувствительны к регистру
-


большинство



Частичная чувствительность



иногда





Пример



Яндекс



при запросе


азот




извлекаются
все

документы



при запросе


!Азот




извлекаются документы со словом
азот
,



начинающимся с
Заглавной

буквы


Поиск по полям документов


Возможен, но полезность ограниченна


основная часть информации на веб
-
странице

находится в одном самом большом поле



Синтаксис у разных систем
-

разный


Пример
:




найти документы, содержащие слово



фосфат

в своем названии



Запрос:




intitle:
фосфат


Google, Yahoo!
,
Bing




title [фосфат]


Яндекс

Усложненный бланк



+


Несколько граф


Выключатели, переключатели и т. д.

для назначения параметров поиска


Наглядность при формулировании заданий

средней и выше чем средней сложности



-


На усложненном бланке можно реализовать

не все синтаксические возможности данной
поисковой программы


www.google.com/advanced_search

Google

Google

www.google.com/advanced_search

yandex.ru/search/advanced


Приложенные файлы

  • pdf 25885186
    Размер файла: 383 kB Загрузок: 0

Добавить комментарий