Учебная и научная тематика кафедры компьютерных технологий Введение в Internet Web-технологии Поиск в WWW Лекция № 15. Толстых Виктор Константинович, д. ф.-м. н., д. т. н., профессор кафедры компьютерных технологий ДонНУ. 1 Толстых Виктор Константинович доктор физико-математических наук, доктор технических наук, профессор кафедры компьютерных технологий ДонНУ, член научного математического общества – Society for Industrial and Applied Mathematics, URL http://www.tolstykh.com Дисциплины В. К. Толстых, читаемые студентам: 1. Internet-технологиии разработки приложений, 2. Современные Internet-технологии, 3. Интеллектуальные Web-технологии, 4. Программирование в Delphi, 5. Численные методы Полный перечень дисциплин – http://tolstykh.com/edu/ Основные научные публикации В. К. Толстых: http://tolstykh.com/sci/publications.asp 2 Структура лекции 1. 2. 3. 4. Введение в Internet, протоколы TCP/IP Internet-адрес URL, домены Web-сервер, Web-сайт, Web-браузер Информационно-поисковые системы в Web, правила поиска 5. Разработка Web-страниц 3 Internet – это глобальная сеть компьютеров, работающая по протоколам TCP/IP Протокол – это правило приёма и передачи данных между компьютерами. IP (Internet Protocol) – интернет протокол, описывающий правила назначения адресов компьютерам. Всякий компьютер, имеющий IP-адрес называют хосткомпьютером. TCP (Transmission Control Protocol) – протокол, описывающий правила надёжной доставки данных хост-компьютерам. Файл, передаваемый в сетях TCP/IP, разбивается на маленькие пакеты (несколько КБ) с IP адресом получателя и контрольной сумой, согласно TCP. Эти пакеты самостоятельно приходят через Internet к получателю и там собираются в исходный файл. Испорченные пакеты, согласно TCP, повторяются заново. 4 URL стандарт (определитель местонахождения) ресурса) протокол://адрес сервера/путь к ресурсу/имя ресурса , например, http://www.donnu.edu.ua/library/index.asp Домен IP-адрес (это делает DNS-сервер) Настройка сети: Клиент–сервер сетевая архитектура, в которой работа распределена между поставщиками услуг – программы-серверы и заказчиками услуг – программы-клиенты 5 Взаимодействие Клиент – Web-сервер Запрос клиента Web-приложение (расширение сервера DLL, exe, ASP …) Web-Сервер готовит ответ Ответ сервера Клиент создаёт запрос (Web-браузер: Internet Explorer, Opera, Mozila…) Web-сайты 6 HTTP 200 - OK HTML Поиск в WWW Лидеры информационно-поисковых систем (ИПС) Международные: • http://www.google.com • http://scholar.google.com.ua • http://www.bing.com • http://search.yahoo.com • http://www.ask.com • http://www.alltheweb.com • http://www.lycos.com • http://www.excite.com • http://www.altavista.com Российские: • http://www.yandex.ru • http://www.rambler.ru • http://www.aport.ru Украинские: • http://meta.ua • http://uaport.net 8 Как работают ИПС Поисковая машина – это комплект программ: • Spider («паук») — программа, которая загружает в поисковую машину Webстраницы. Работает аналогично браузеру, но ничего не отображает ни на каком экране. • Crawler («червяк», или «путешествующий паук») — программа, способная найти на Web-странице все ссылки на другие страницы. Ее задача — определить, куда дальше должен ползти «паук», руководствуясь ссылками или заранее заданным списком адресов. • Indexer (индексатор) — программа, которая «разбирает» страницу на составные части и анализирует их. Вычленяются и анализируются заголовки Web-страниц, заголовки документов, ссылки, текст документов, отдельно — текст, выделенный полужирным шрифтом, курсивом и т.д. Глубина индексации может быть разной. Полные тексты документов в базу данных копируют не все поисковые роботы — некоторые ограничиваются лишь заголовками. • Database (база данных) — хранилище всех данных, которые поисковая система загружает и анализирует. Требует огромных ресурсов как для хранения, так и для последующей обработки. • Search Engine Results Engine (система выдачи результатов поиска) решает, какие страницы удовлетворяют запросу пользователя и в какой степени. Именно с этой частью поисковой системы «общается» пользователь. Основные логические операторы Оператор Логическое И Rambler And & пробел Яndex & пробел (в пределах предложения) Google пробел && (в пределах документа) Логическое ИЛИ Or | | OR ~ Логическое НЕ NOT ! (в пределах предложения) – ~~ (в пределах документа) Группировка () () () Есть или сыр, или колбаса Есть одновременно и сыр и колбаса 11 Есть одновременно и сыр и грибы Есть сыр но нет грибов 12 Разработка Web-страниц Теги – средства оформительской разметки текста Web-страницы для показа в браузере. Теги могут иметь атрибуты, уточняющие действие тега. Перечень тегов и их атрибутов приводятся в справочниках. Файл test.html 13 Свойства браузера 14 Пример теста Что такое TCP-протокол? 1. правило контроля качества передачи пакетов в Internet-сетях 2. реестр посетителей Internet 3. правило надёжной доставки данных хост-компьютерам 4. правило адресации компьютеров в Internet 5. правило доступа к Internet-серверам Правильные ответы 1, 3 16 Термины и их определения IP – Internet Protocol TCP – Transmission Control Protocol URL – Uniform Resource Locator Сервер – программа поставщик услуг Клиент – программа заказчик услуг Web-сервер – программа поставщик Web-услуг HTTP – HyperText Transfer Protocol HTML – HyperText Markup Language ИПС – информационно-поисковая система Spider – программа «паук» ИПС Crawler – программа «червяк» ИПС Теги – средства разметки текста Web-страницы Атрибуты – уточняют действия тегов Временные Интернет файлы – кэш копии Web-ресурсов, полученных браузером Куки – файлы «памяти» Web-сервера, хранящиеся в браузере 17 Список литературы • Интернет [Электронный ресурс] // ВикипедиЯ — Режим доступа к ресурсу: http://ru.wikipedia.org/wiki/Internet • Толстых В. К. Характеристики ИПС — Режим доступа к ресурсу: http://tolstykh.com/edu/slides/Advanced Internettechnologies/Характеристики ИПС.ppt • Толстых В. К. Введение в Web-технологии — Режим доступа к ресурсу: http://tolstykh.com/edu/slides/Creating Internet-applications/Введение в Web-технологии.ppt