Архив

Архив раздела ‘История создания’

Общие принципы работы поисковых систем

18 Февраль 2010 Нет комментариев

Поисковая система состоит из следующих основных компонентов:

Spider (паук) – браузероподобная программа, которая скачивает веб-страницы.

Crawler (краулер, «путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице.

Indexer (индексатор) – программа, которая анализирует веб-страницы, скаченные пауками.

Database (база данных) – хранилище скачанных и обработанных страниц.

Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных.

Web server (веб-сервер) – веб-сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы.

Детальная реализация поисковых механизмов может отличаться друг от друга (например, связка Spider+Crawler+Indexer может быть выполнена в виде единой программы, которая скачивает известные веб-страницы, анализирует их и ищет по ссылкам новые ресурсы), однако всем поисковым системам присущи описанные общие черты.

Spider. Паук – это программа, которая скачивает веб-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает напрямую с html-текстом страницы (вы можете сделать «просмотр html-кода» в вашем браузере, чтобы увидеть «сырой» html-текст).

Crawler. Выделяет все ссылки, присутствующие на странице. Его задача – определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer. Индексатор разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д.

Database. База данных – это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы.

Search Engine Results Engine. Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной для нас – именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все факторы, влияющие на ранжирование результатов.

Web server. Как правило, на сервере присутствует html-страница с полем ввода, в котором пользователь может задать интересующий его поисковый термин. Веб-сервер также отвечает за выдачу результатов пользователю в виде html-страницы.

История развития поисковых систем

17 Февраль 2010 Нет комментариев

В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации относительно небольшим. В большинстве случаев доступ к Интернет имели сотрудники различных университетов и лабораторий, а в целом Сеть использовалась в научных целях. В это время задача поиска информации в сети Интернет была далеко не столько актуальной, как в настоящее время.

Одним из первых способов организации доступа к информационным ресурсам сети стало создание каталогов сайтов, в которых ссылки на ресурсы группировались согласно тематике. Первым таким проектом стал сайт Yahoo, открывшийся в апреле 1994 года. После того, как число сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска информации по каталогу. Это, конечно же, не было поисковой системой в полном смысле, так как область поиска была ограничена только ресурсами, присутствующими в каталоге, а не всеми ресурсами сети Интернет.

Каталоги ссылок широко использовались ранее, но практически утратили свою популярность в настоящее время. Причина этого очень проста – даже современные каталоги, содержащие огромное количество ресурсов, представляют информацию лишь об очень малой части сети Интернет. Самый большой каталог сети DMOZ (или Open Directory Project) содержит информацию о 5 миллионах ресурсов, в то время как база поисковой системы Google состоит из более чем 8 миллиардов документов.

Первой полноценной поисковой системой стал проект WebCrawler появившийся в 1994 году.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в Интернет.

В 1997 году Сергей Брин и Ларри Пейдж создали Google в рамках исследовательского проекта в Стэнфордском университете. В настоящий момент Google самая популярная поисковая система в мире.

23 сентября 1997 года была официально анонсирована поисковая система Yandex, самая популярная в русскоязычной части Интернет.

В настоящее время существует 3 основных международных поисковых системы – Google, Yahoo и MSN Search, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих можно насчитать очень много) использует в том или ином виде результаты 3 перечисленных. Например, поиск AOL (search.aol.com) и Mail.ru используют базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

В России основной поисковой системой является Яндекс, за ним идут Rambler, Google.ru, Aport, Mail.ru и KM.ru.

Домен несуществующего государства. Зона .su

9 Январь 2010 Нет комментариев

За год до распада некогда великого СССР в Сети был зарегистрирован домен первого уровня .SU с целью создания пространства доменных имен на его территории. В 1991-м году Союза не стало. Вновь образовавшиеся государства в соответствии со своим статусом могли претендовать на получение своего собственного доменного имени, что все они и сделали. Вместо одного общего получилось 15 частных. В том числе и у России. Но в нашей стране многое зачастую происходит не так, как у других. Поэтому домен .SU, как и многое другое, остался в ведении России. Впрочем, это не удивительно. Ведь инициаторами его регистрации в 1990 году выступила российская Ассоциация пользователей UNIX (SUUG – Soviet UNIX Users Group) и 19 сентября того же года домен был зарегистрирован. Администрированием домена занималась сеть «Релком», которая только тремя годами позже передала бразды правления в руки Российского НИИ развития общественных сетей (РосНИИРОС).

К 1994-му году, когда, после получения Россией своего доменного имени, РосНИИРОС прекратил работы по развитию домена .SU, в нем существовало около 160 доменов второго уровня. Отказаться сразу от их использования было невозможно – слишком много было задействовано на них почтовых адресов. Так домен .SU продолжал жить, не развиваясь дальше, но и не исчезая вовсе (хотя это высказывание – под большим вопросом. При отсутствии официальной регистрации доменов их количество с 1994 года увеличилось в десять раз и составило к маю 2002 года около 28000).

Все изменилось в 2001 году. В канун празднования очередной годовщины октябрьской революции. В сентябре по инициативе дух компаний – «Релком-ДС» и «Демос-Интернет» – была организована новая некоммерческая организация «Фонд развития Интернет». И уже 1 октября его усилиями и с согласия РоиНИИРОС в домене .SU вновь была открыта регистрация доменных имен второго уровня. Надо сказать, что по установившемуся правилу недействительные домены могут существовать на протяжение 5 лет после принятия решения о прекращении их поддержки со стороны корневых доменов. По отношению к домену .SU этот период, учитывая размеры бывшего Советского Союза, был увеличен в два раза – до 10 лет. Поэтому формального запрета на прекращение регистрации новых доменов второго уровня как бы и не было, если не считать выданное в 1996 году обещание РосНИИРОС о прекращении существования домена по истечении десятилетнего периода. Оно (обещание) было запротоколировано в документе, называющемся «Протокол о порядке администрирования домена .SU от 08.10.1996 г.», в котором говорится, что «домен .SU считается устаревшим в связи с исключением соответствующего кода из стандарта ISO3166, и регистрация новых имен в домене .SU не производится».

Возобновление процесса регистрации вызвало противоположную реакцию у сетевого сообщества. Мнения раскололись на две противоположных части – как «за», так и «против». Была даже создана инициативная группа Save SU, которая распространила обращение к прессе в защиту «советского» домена. Ее деятельность в 2001 году была весьма бурной, свидетельством чего может быть их сайт, но постепенно активность группы пошла на убыль, и в прошлом году новых материалов на сайте практически не появлялось. С другой стороны – Форум российских сервис-провайдеров (OFISP), который считается представителем независимой интернет-общественности – выступал против возрождения домена.

Какие были мотивы у противников и сторонников возрождения домена? Их немного, если отбросить словесную шелуху и эмоции. Сторонники возрождения домена считают, что наличие еще одной доменной зоны пойдет лишь на пользу развитию Интернета. К тому же, в этой зоне до сих пор находится немалое количество пользователей, которые не спешат отказываться от своих доменов. Аргументы противников также просты и понятны – если нет государства, то нет и домена. И самое, пожалуй, существенное заключается в том, что противники возражают против непомерного взвинчивания цен на регистрацию в возрожденном домене. Последнее возражение было вызвано тем, что в 2001 году все права на коммерческую эксплуатацию зоны .SU ФРИ передал компании RU-Center, которая установила заоблачные цены регистрации – 15000 долларов, когда типичная цена составляет всего 30 условных единиц.

В организацию ICANN, международному координатору доменных зон, пошли письма как с той, так и с другой стороны. Но ICANN довольно прохладно отнеслась к участию в решении конфликта, не высказав официальной точки зрения. А вот неофициальная, т.е. без публикации в официальных источниках, точка зрения высказывалась. Была она заявлена Гербертом Вицтумом, сотрудником ICANN, во время его посещения России в сентябре прошлого года. Он заявил, что поддержка домена .SU корневыми серверами ICANN будет прекращена через 8 – 12 месяцев (десятилетний срок, установленный при консервации домена, истек в 2002 году). При этом Вицтум заявил, что этот вопрос решен окончательно.

Но ни РосНИИРОС, ни ФРИ не были склонны считать это заявление официальным решением ICANN, а только частным мнением одного из сотрудников этой организации, зато экспертный совет при Минсвязи поддержал Вицтума. Их можно понять – в январе 2002 года ими было приостановлена регистрация новых доменных имен до решения вопросов, связанных с правовой основой функционирования домена. Решением этих вопросов занялся, как наиболее заинтересованная сторона, «Фонд развития Интернет», который в конце мая опубликовал подробный отчет по состоянию доменной зоны. Вывод был предсказуем: необходимость в дальнейшем развитии домена существует. Тем более что европейское сообщество дало прекрасный пример для подражания, подготовив все для функционирования своего домена .EU

Дальнейшие события развивались так. 7 августа 2002 года Наблюдательный совет фонда рассмотрел вопросы дальнейшего развития доменной зоны .SU и одобрил проведение приоритетной регистрации в доменной зоне .SU, начиная с 1 октября 2002 года. Но, поскольку «Положение о приоритетной регистрации» было утверждено только к концу ноября, сама регистрация была начата лишь в середине декабря и будет продолжаться до конца мая 2003 года. В чем смысл приоритетной регистрации доменов? В соответствии с утвержденным положением в период его действия, принимаются заявки только от владельцев зарегистрированных товарных знаков, представивших регистратору нотариально заверенные и переведенные на русский язык копии двух свидетельств: о регистрации юридического лица и о регистрации товарного знака. Стоимость регистрации в этот период составит 100 долларов (а не 15000, как было год назад).

В Положении говорится, что регистрируемое доменное имя (без окончания «.su») должно воспроизводить:
(1) Словесное обозначение, зарегистрированное в качестве товарного знака, и совпадать по написанию с однословным словесным обозначением;
(2) Словесное обозначение, зарегистрированное в качестве товарного знака, и совпадать по написанию с многословным словесным обозначением при удалении из этого обозначения пробелов или замене пробела на дефис. Администратором домена может быть только владелец товарного знака, указанный в свидетельстве о регистрации товарного знака.

Разработчики положения считают, что подобная система поможет защитить доменные имена от киберсквоттинга и дать возможность получить их истинным владельцам интеллектуальной собственности. Также вполне вероятно, что доменные споры в зоне .SU будут решаться по международным правилам, установленным Всемирной организацией интеллектуальной собственности (ВОИС). Но далеко не все споры удастся решить даже по их правилам. Дело в том, что, если в доменной зоне невозможно зарегистрировать два одинаковых доменных имени, то регистрация одного и того же товарного знака допускается для разных видов товаров и услуг и на имя разных владельцев. В такой ситуации победит тот, кто первым подаст заявку на регистрацию.

30 декабря 2002 г. была зарегистрирована первая партия доменных имен, совпадающих с наименованием товарных знаков, и на сегодняшний день среди новых владельцев доменов в зоне SU значатся такие брэнды, как SOFTLINE, UNITEL и SIMPLEX.

Домен верхнего уровня. История появления.

23 Октябрь 2009 Нет комментариев

Домен верхнего уровня

Материал из Википедии — свободной энциклопедии

Домены верхнего уровня являются начальными точками отсчёта, с которых начинаются имена доменов в Интернете.

Поскольку каждое имя интернет-домена состоит из нескольких частей, разделённых точками и записанными в обратном порядке, то доменом верхнего уровня (англ. Top-level domain — TLD) является завершающая из частей имени домена, разделённых точками. Например, в имени домена www.example.com доменом верхнего уровня является com (или COM, поскольку доменные имена нечувствительны к регистру).

Вопросами создания, поддержания и административного управления доменами верхнего уровня первоначально занималась руководимая Джоном Постелом организация IANA, действовавшая на основании контракта с Министерством обороны США. После его смерти эти вопросы были переданы в другую международную организацию ICANN — Интернет-корпорацию по присвоению имён и номеров (англ. Internet Corporation for Assigned Names and Numbers), а функции подрядчика перешли к Министерству торговли США. В настоящее время ICANN обеспечивает поддержку и управление всем адресным пространством DNS в сети Интернет, кроме TLD ограниченного пользования, которые напрямую управляются американскими государственными организациями.

Технически домены верхнего уровня доступны через систему корневых серверов DNS, контролируемую ICANN.

Домены верхнего уровня можно разделить на несколько классов:

Домены верхнего уровня стран

Национальные домены, в отличие от всех прочих доменов верхнего уровня, всегда состоят из двух букв и, как правило, соответствуют кодам стран, закреплённым в стандарте ISO 3166.

История появления доменов верхнего уровня для разных стран выглядит следующим образом:

1985 год:

* 24 июля: домен .us, США.
* 24 июля: домен .uk, Великобритания.
* 24 октября: домен .il, Израиль.

1987 год:

* 23 сентября: домен .ar, Аргентина.

1989 год:

* 18 апреля: домен .br, Бразилия.

1990 год:

* 19 сентября: домен .su, Советский Союз (Soviet Union).
* 28 ноября: домен .cn, Китай.

1991 год:

* 1 февраля: домен .ec, Эквадор.
* 26 февраля: домен .bo, Боливия.
* 3 сентября: домен .ag, Антигуа и Барбуда.
* 9 сентября: домен .py, Парагвай.
* 25 ноября: домен .pe, Перу.
* 24 декабря: домен .co, Колумбия.

1992 год:

* 21 апреля: домен .al, Албания.
* 1 декабря: домен .ua, Украина.

1993 год:

* 1 июля: домен .lv, Латвия.
* 9 сентября: домен .an, Нидерландские Антильские Острова.

1994 год:

* 7 апреля: домен .ru, Россия.
* 26 августа: домен .am, Армения.

1995 год:

* 27 января: домен .cl, Чили.

1997 год:

* 16 октября: домен .af, Афганистан.

[править] Домены, относящиеся к группе стран

* .asia — страны Азии, включая Австралию.
* .eu — Европейский союз.

Домены верхнего уровня общего назначения

* .aero — для субъектов авиатранспортной индустрии.
* .biz — только коммерческие организации.
* .cat — для использования каталанским языковым и культурным сообществом.
* .com — коммерческие организации (без ограничений).
* .coop — кооперативы.
* .edu — высшие учебные заведения, признаваемые в качестве таковых Департаментом образования США.
* .info — информационные ресурсы (без ограничений).
* .jobs — кадровые агентства.
* .mobi — для продавцов и поставщиков мобильного контента и услуг, связанных с мобильной связью.
* .museum — музеи.
* .name — физические лица.
* .net — организации имеющие отношение к функционированию Интернета (без ограничений).
* .org — некоммерческие организации (без ограничений).
* .pro — сертифицированные профессионалы и смежные темы.
* .tel — сервисы, включающие в себя связь между телефонной сетью и Интернетом (добавлен 2 марта 2007).
* .travel — для субъектов туристического бизнеса.

Домены ограниченного использования

* .gov — правительство США.
* .int — межгосударственные организации (за исключением .tpc.int).
* .mil — армия США.
* .arpa — инфраструктура Интернета и, ранее, адреса в закрытой (военной) части сети Интернет США.
* .root — домен прописан в корневых серверах DNS, контролируемых компанией VeriSign, но его назначение никогда не комментировалось. По всей видимости он используется только для внутренних целей.

Устаревшие и неиспользуемые домены

* .nato — структуры международной организации НАТО — в настоящее время не используется, по крайней мере, в публично доступной части сети Интернет, откуда был удалён в июле 1996 года.
* .web — домен, выделенный IANA для использования частным коммерческим регистратором Image Online Design. В связи с протестами общественности корневые сервера этого домена так и не были подключены к общей системе DNS. В настоящее время они продолжают функционировать, а на сайте регистратора находится сообщение о том, что он якобы проходит процедуру регистрации этого домена в ICANN.
* .csnet — домен, предназначенный для связи с Computer Science Network — университетской и научной почтовой сетью в США. Перестал использоваться, по всей видимости, после объединения CSNET и BITNET, произошедшего в 1988 году.
* .ddn — домен верхнего уровня, предназначенный для использования в американской оборонной сети Defence Data Network. Был запланирован, но так и не реализован.

Зарезервированные домены

Согласно RFC 2606 следующие четыре домена верхнего уровня зарезервированы для различных целей, для того, чтобы они никогда не использовались как реальные имена доменов в глобальной DNS:

* .example — зарезервировано для примеров.
* .invalid — зарезервировано для использования в очевидно неверных именах доменов.
* .localhost — зарезервировано для того чтобы избежать конфликтов с традиционным использованием localhost.
* .test — зарезервировано для использования в тестах.

ряд старых систем так же использует домен верхнего уровня — * .local для адресов, применяемых в пределах одной машины или локальной компьютерной сети. Для адресации текущего компьютера так же, достаточно часто, применяется адрес .localdomain.

Общеупотребительные псевдодомены

Эти домены не присутствовали в адресном пространстве DNS, но они общеупотребимы при пересылке почты из Интернета в сети с другим способом адресации. Для обработки писем, отправляемых на адреса в этом домене, почтовое программное обеспечение на конкретной машине, через которую отправляется почта, должно быть настроено соответствующим образом.

* .uucp — для гейтования на машины, доступные при помощи UUCP.
* .bitnet — для отправки почты в сеть BITNET.
* .fidonet — для отправки почты в сеть Фидонет. В настоящее время, в связи с изменением общепринятой практики маршрутизации между сетями Интернет и Фидонет, вместо этого псевдодомена обычно используется домен .fidonet.org.

В стадии разработки

В июне 2005 ICANN объявила об одобрении в принципе нескольких новых TLD, внедрение которых находится сейчас на разных стадиях реализации — часть из них уже начала своё функционирование и присутствует в списке доменов общего назначения, нижеперечисленные домены ещё не работают:

* .post — почтовые службы.

* .xxx — сайты для взрослых. Руководство ICANN окончательно проголосовало против домена «.ххх» девятью голосами против пяти. В настоящее время вопрос о введении этого домена верхнего уровня перешёл в стадию судебного разбирательства между заинтересованными в его создании коммерческими структурами и правительственными инстанциями (прежде всего Министерством торговли) США.

* .рф — первый кириллический домен. В ноябре 2009 года планируется начало приоритетной регистрации для владельцев товарных знаков, а в 2010 году регистрация станет доступна всем желающим.

Предложения по домену .mail находится в стадии рассмотрения.

В настоящее время ICANN так же приступила к рассмотрению предложений по внедрению доменов верхнего уровня на национальных языках — при этом уже поданные предложения вовсе не ограничиваются принципом «один язык — один домен». Так, поданные предложения по TLD на персидском языке включают в себя 15 TLD разнообразного назначения.

Альтернативные и дополнительные домены верхнего уровня

Теоретически кто угодно может установить и начать использовать свои собственные корневые серверы DNS. На практике в Интернет периодически появляются различные группы лиц и организации, которые открывают для публичного использования Альтернативные корневые серверы DNS. Как правило, эти системы дополняют общепринятый набор доменов некоторым количеством новых доменов первого уровня, иногда — дополняют техническую реализацию. Например, до того, как DNS была расширена для возможности использовать в доменные именах символы национальных алфавитов, было предпринято несколько попыток создать дополнительные системы DNS, с доменными именами, в том числе первого уровня, содержащими символы того или иного национального алфавита, такие как русский домен я.ру. Эти попытки не получили широкого распространения, однако ряд таких проектов продолжает существовать и до сих пор. Постольку, поскольку ICANN традиционно игнорирует альтернативные проекты, собственная деятельность этой организации по выдаче новых домена верхнего уровня в своё время привела к конфликту вокруг домена .biz, на администрирование которого уже имелись два «исторических претендента». В результате этого ряд альтернативных систем DNS отказался распознавать домены, зарегистрированные в варианте ICANN .biz и полная совместимость их адресного пространства с DNS ICANN была потеряна.

Дополнительные домены верхнего уровня могут использоваться специализированным программным обеспечением, как правило — в пределах одного компьютера, для перехвата и последующей обработки части обращений к Интернет. Например, домен .onion используется анонимной сетью Tor для перехвата и последующей маршрутизации обращений к скрытым сервисам этой сети, а домен .i2p -программным обеспечением анонимной сети I2P.

Материал из Википедии — свободной энциклопедии