юли, 2005

Outbreak

Outbreak e рок групата, създадена от хора от випуск 2003 в колежа. Страшни са - аз лично си пускам редовно и доста се изненадвам, че вече година след разпадането им срещам нови фенове. За съжаление всички завършиха и заминаха да учат по света. И си останаха само с един албум, но пак евалатa!

Ето и албумът - за поколенията.

Outbreak - Garden Party
# Cafe Colombiano
# KSP
# Sometimes
# Ела да ме хванеш
# Garden Party
# Баладата за Свилен Р. Ангелов
# Wait for Better Days (Live)
# Saturday (Unplugged)

Ако ти хареса албума, поискай да издадат нов!

Алгоритъм за откриване на звукова прилика между български думи

Алгоритъмът преобразува български думи в съкратени буквени кодове, които могат да се ползват за намиране на близкозвучащи думи. Ако две думи имат подобно звучене, то е вероятно да имат един и същи съкратен код. По цел алгоритъмът е подобен на английските Metaphone и SoundEx.

Съдържание

Алгоритъмът е разделен на две нива. Ниво 1 заменя затворените гласни (и, ъ, у) с отворени (е, а, о), беззвучните съгласни със звучни и двузвучните букви (щ, ю, я) с техните основни звуци. Комбинации от букви като 'шт' и 'ие' се заменят с основните им звуци. 'със' и 'във' се заменят с кратките им форми. Пълните членове се заменят с непълни.

Ниво 2 извършва същото, но премахва всички гласни.

Към ниво 1 и ниво 2 са добавени нива 1а и 2а. Те пренареждат буквите във всяка дума по възходящ ред, по този начин елиминирайки грешки в реда като 'птиац' вместо 'птица'.

Генерираните кодове са на латиница.

Примери
ОригиналНиво 1Ниво 1аНиво 2Ниво 2а
Писмените работи се оценяват по точкова система.beznenede rabode ze ocenevad bo docgova zezdenabdeeeennz abdeor ez acdeenov bo acdgoov adeenzzbznnd rbd z cnvd b dcgv zzdnbdnnz bdr z cdnv b cdgv dnzz
Кои са най-модните цветове за плажа.goe za naenodnede cvedove za blazaego az addeeennno cdeeovv az aablzg z nndnd cvdv z blzg z ddnnn cdvv z blz
Колизии

Колизиии се наричат различни думи, които генерират един и същи резултат, когато се пуснат през транформационна функция, каквито има в този алгоритъм. За разлика от други алгоритми, като MD5 и SHA1, в този алгоритъм колизиите са хубаво нещо, защото целта е да се намерят сходно-звучащи думи.

За експеримента ползвах този списък от 17,829 български думи, които бяха прекарани през всяка от функциите в алгоритъма. После бяха търсени колизии в рамките на резултатите на всяка функция. Ако 3 думи имат един и същи код се броят 3 колизии.

НивоБрой колизииПроцент
Ниво 1197811.09%
Ниво 1а825346.29%
Ниво 21120062.81%
Ниво 2а1577888.50%

Водейки се по процента на колизии можете да изберете нивото на алгоритъма, което ще ви свърши най-много работа.

Код

zvuchene.phpUTF-8) съдържа код за алгоритъма, написан на PHP. Кодът е лицензиран под GPL. Ако преведете кода на друг език (примерно C), ще се радвам да го включа тук.

Възможни употреби
  1. Попряване на правописни грешки.
  2. Улесняване на въвеждането на информация (например фамилни имена).
  3. Подобряване на интернет търсачки. Търсачките могат да индексират текста, след като е обработен от алгоритъма, и да обработват query-то с алгоритъма.

Спамени проблемчета

  1. Захващаш се да администрираш сървър на познат и машината е с hostname в твой домейн.
  2. Постепенно спираш да се занимаваш, защото машината си работи, а познатият започва разни съмнителни действия на сървъра.
  3. Акаунтът ми на машината бива изтрит, почва да се бълва спам от сървъра, домейните се блокират заради phishing, а ти започваш да получаваш гневни писма от цял свят, понеже си postmaster на домейна на машината.
  4. Ходи обяснявай, че не спамваш ти и че не си камила.

Извод: когато администрираш сървър, гледай да е твой.

ПРОДЪЛЖЕНИЕ (неделя сутринта):

Ех...

Хора от цял свят боядисват в бяло ръцете си, снимат ги и ги пускат във Flickr за да протестират срещу тероризма. Защо хората обичат да правят толкова безмислени неща само за да се залъгват, че правят нещо?