31/01/2008

Русскоязычная часть ODP в январе 2008

1 звезда2 звезды3 звезды4 звезды5 звёзд
Loading ... Loading ...

Подошёл к концу январь 2008 года, зима в самом разгаре. Снега уже выпало в избытке, а ведь нам ещё предстоит увидеть февраль.

Количество сайтов, классифицированных в Каталоге

На 31 января 2008 года, в DMOZ размещено более 4 575 000 сайтов, из них в русскоязычных разделах находятся более 54 500, что является 9 результатом среди всех языков. Это значит, что, в течение января, по общему количеству сайтов, были обогнаны разделы на датском языке.

31 января, раздел World: Russian обогнал раздел на датском языке, самостоятельно выйдя на 9 позицию.

Резкое сокращение количества размещённых в Открытом Каталоге сайтов является следствием удаления раздела News: Online Archives, который содержал более 200 000 ссылок на страницы CNN.com.

Статистика по конкретным русскоязычным разделам:

  1. Бизнес (более 7 450 сайтов)
  2. Дети и подростки (более 200 сайтов)
  3. Для взрослых (более 250 сайтов)
  4. Дом (более 1 200 сайтов)
  5. Досуг (более 1 550 сайтов)
  6. Здоровье (более 1 100 сайтов)
  7. Игры (более 1 200 сайтов)
  8. Искусство (более 4 300 сайтов)
  9. Источники информации (более 800 сайтов)
  10. Компьютеры (более 4 350 сайтов)
  11. Наука (более 1 450 сайтов)
  12. Новости и СМИ (более 150 сайтов)
  13. Общество (более 3 850 сайтов)
  14. Покупки (более 1 500 сайтов)
  15. Спорт (более 1 450 сайтов)
  16. Страны и регионы (более 23 450 сайтов)

Изменение количества сайтов, классифицированных в Каталоге, за последний месяц

За последний месяц, русскоязычная часть ODP выросла более, чем на 1 300 сайтов, что составляет приблизительно 2,44%.

Новые добровольные редакторы

В январе 2008 года, около 35 новых редакторов приступили к редактированию в русскоязычной части Открытого Каталога, что составляет около 13,52% от общего числа новых редакторов, принятых в наши ряды, в этом месяце, во всём Каталоге, и около 9,7% от общего количества редакторов в его русскоязычной части на конец января.





25/01/2008

Длина заголовка и описания сайта

1 звезда2 звезды3 звезды4 звезды5 звёзд
Loading ... Loading ...

Одной из самых частых причин ошибок, выдаваемых в Открытом Каталоге формой Предложить URL, является превышение пользователем лимита символов при заполнении поля для описания сайта. С длиной заголовка всё намного проще, её проверяет сам браузер ещё до отправки формы, не давая ввести в соответствующее поле более 100 символов.

Если посмотреть HTML код формы предложения сайта в DMOZ, то видно, что поле для ввода описания создаётся с помощью тега textarea, имеющего атрибут maxlength="300", который игнорируется браузерами, как не соответствующий стандарту. Поле для ввода заголовка же создаётся с помощью тега input, имеющего атрибут maxlength="100", который учитывается браузерами и соответствует стандартам.

Как следствие, проверка длины описания ложится на плечи cgi скрипта, который ограничивает размер величиной 300 байт.

В кодировке UTF-8, реализующей представление Юникода, совместимое с 8-битным кодированием текста, символы Юникода занимают от 1 до 4 байт:

  • символы латинского алфавита, арабские цифры, знаки препинания и управляющие символы ASCII занимают по 1 байту;
  • символы кириллического алфавита занимают по 2 байта.

Произвольное описание сайта, состоящее из 300 байт, может иметь совершенно различную длину в символах:

  • описание сайта из 300 байт, содержащее 1-о, 2-х, 3-х и 4-х байтовые символы, будет иметь длину между 75 и 300 символами;
  • описание сайта из 300 байт, содержащее 1-о, 2-х и 3-х байтовые символы, будет иметь длину между 100 и 300 символами;
  • описание сайта из 300 байт, содержащее 1-о и 2-х байтовые символы, будет иметь длину между 150 и 300 символами;
  • описание сайта из 300 байт, содержащее 1-о байтовые символы, будет иметь длину 300 символов.

С помощью самой простой оценки, мы получаем следующие ограничения для описания:

  • на английском языке — не более 300 символов;
  • на русском языке, в зависимости от количества 1-о, 2-х, 3-х и 4-х байтовых символов, — в среднем, до числа чуть больше 150 символов.

Понятно, что большинство описаний сайтов, предлагаемых в русскоязычную часть ODP, будет включать в себя только 1-о и 2-х байтовые символы, но кто сказал, что туда не могут случайно или специально быть предложены описания с какими-то 3-х или 4-х байтовыми символами...

Статистика проекта Частотный словарь говорит нам, что:

  • средняя длина русского слова составляет 5.28 символа;
  • средняя длина предложения на русском языке составляет 10,38 слова.

Теперь мы можем уточнить нашу оценку с помощью следующей формулы:

Среднее число символов в русскоязычном описании сайта, состоящем из 300 байт, = 3 точки * 1 байт в точке + ( 297 байт / ( ( 5,28 букв кириллицы в слове * 2 байта в кириллической букве + 1 пробел * 1 байт в пробеле ) / 6,28 байт в конструкции, состоящей из 1 слова из букв кириллицы и 1 пробела ) ) = 164,34 символа

С учётом всего вышесказанного, можно сказать, что при предложении сайта в Каталог, чтобы избежать хотя бы части ошибок в форме Предложить URL, следует придерживаться следующих ограничений при составлении русскоязычного описания ресурса:

  • до 160 символов или более грубое
  • 20-25 слов или самое грубое
  • 2-3 предложения.

Стоит также уточнить, что ограничения на длину описания и названия сайта, как можно заметить из раздела Bookmarks, где встречаются описания и названия сайтов длиной по несколько тысяч символов, на редактора накладываются лишь рекомендациями из Правил DMOZ и здравым смыслом, а не скриптами.





20/01/2008

Новый топ-редактор World/Russian — valeryiv

1 звезда2 звезды3 звезды4 звезды5 звёзд
Loading ... Loading ...

20 января 2008 года, в разделе World: Russian, появился 8-й топ-редактор. Им стал valeryiv.

Валерий Иванов начал свою редакторскую деятельность в марте 2007 года. В январе 2008 года, он получил права редактирования, с промежутком в 1 неделю, в своих первых 2-х разделах верхнего уровня — World: Russian: Страны и регионы и World: Russian: Дом, а чуть позже, почти через 3-е суток, стал топ-редактором.

Его январское продвижение в иерархии Открытого Каталога стало одним из самых стремительных за историю ODP, но являлось прямым следствием его неустанной работы на протяжении предыдущих 9-и месяцев. Также он стал первым из редакторов новой волны, принятых после сбоя в октябре 2006 года, получившим статус топ-редактора русскоязычного раздела.

Поздравляем его и желаем оправдать оказанное доверие и многократно улучшить все свои текущие достижения в DMOZ. :)





18/01/2008

Всё тайное становится явным...

1 звезда2 звезды3 звезды4 звезды5 звёзд
Loading ... Loading ...

Ранее в посте Неизвестные уголки ODP было рассказано о таинственном разделе Test, содержимое которого доступно для просмотра только редакторам DMOZ. Многих пользователей, не имеющих полномочий редактора, интересует существование возможности заглянуть туда. Есть ли какая-то легальная лазейка для этого? Да, такая лазейка есть, и далее мы о ней расскажем.

Любой пользователь может совершенно свободно посмотреть содержимое раздела Test: World (который является подразделом раздела Test) и его подразделов, доступ к которому открыт, т. к. там, в стадии подготовки, находятся ещё не размещённые в общедоступной части Каталога языковые разделы. По идее, это должно было помочь этим языковым разделам наполниться и привлечь к себе внимание потенциальных редакторов, но, на практике всё иначе, пользователи за пределами ODP просто не догадываются о местонахождении и публичной доступности этого инкубатора. Зато, для осведомлённых об этом счастливчиков, присутствует прекрасная возможность ближе познакомиться со структурой и содержанием секретного раздела Test...

В верхней группе сортировки раздела Test: World можно увидеть 2 подраздела:

  • Test: World: Multilingual Resources (4) — раздел для сайтов, доступных больше, чем на 25 языках, и каталогов, в которых размещаются сайты на многих языках;
  • Test: World: Languages (403) — раздел содержит материал для упрощения задач редактирования эквивалентных разделов на разных языках.

В средней группе сортировки раздела Test: World, в стадии подготовки, находятся 97 ещё не размещённых в общедоступной части DMOZ языковых разделов.

В нижней группе сортировки раздела Test: World находятся копии языковых разделов времён перехода Открытого Каталога на кодировку UTF-8, а также ещё не размещённые в общедоступной части ODP языковые разделы, которые, с тех пор, так и не были переведены в кодировку UTF-8.

Из ссылок в See also можно узнать о существовании таких разделов, как:

  • Test: Editors: N: namig: Turkic (32) — разделы, с адресом вида Test/Editors/E/Editor, доступны для каждого редактора, как «личная песочница» или альтернатива Bookmarks;
  • Test: Tools for Editors: Translation Tools (22)представить себе, что находится в разделе Test: Tools for Editors, можно на основе содержания публично доступного раздела Computers: Internet: Searching: Directories: Open Directory Project: Tools for Editors: ChefMoz Editors, т. к. проект ChefMoz не просто во многом схож с Открытым Каталогом, а является его частью;
  • Test: World Test: World (50,716) —, к сожалению, мы не имеем право предоставить информацию о содержании этого раздела.




15/01/2008

Встреча русскоязычных редакторов DMOZ и менеджера продуктов «Google Россия» Максима Азарова

1 звезда2 звезды3 звезды4 звезды5 звёзд
Loading ... Loading ...

13 января 2008 года, в Петергофе, состоялась встреча части русскоязычных редакторов DMOZ (egood, pavlotsky, petrovich), к которой присоединился, прибывший специально из Москвы, Максим Азаров (менеджер продуктов «Google Россия»). Местом проведения мероприятия стала одна из местных бань.

Во время данной неформальной встречи, Максим спрашивал о работе редакторов русскоязычного сегмента Открытого Каталога, динамике и перспективам его развития, количественных и качественных характеристиках редакторского состава и качестве наполнения самого ODP.

Максим подтвердил догадки о возобновлении постоянных обновлений Каталога Google на основе данных DMOZ, кроме того, он рассказал о доработке поиска по нему для запросов с не латинскими символами, в частности, для запросов, содержащих символы кириллицы.

Описание данного события было выполнено редактором egood.

Нет откликов 4 отклика(ов) | Рубрики: ODP, Жизнь