Корреляция букв в словах

Lene81

Пусть есть слово нормального, человеческого языка. Если я правильно понимаю, существует корреляция между буквами, отражающая наличие дифтонгов и просто произносимости того или иного буквосочетания. Скажем, в английском языке после буквы 'q' почти всегда идет буква 'u' (есть, по-моему около 5 слов-исключений). Т.е. коэффициент корреляции между частотой появления буквы 'q' и 'u' близок к 1.
Можно ли как-то оценивать корреляцию между буквами с заданным числом промежуточных? Например, корреляцию между первой и третьей буквой, первой и пятой и т.п, зная парные корреляции? Мне сложно формализовать это, но, надеюсь, идея понятна.

griz_a

Боюсь что тут марковости совсем нет.
Скажем, после буквы "o" часто идет буква "l", но после буквы "о" когда перед ней "confessi" уже совсем редко.
На уровне парных корелляций это не отследишь

Lene81

Боюсь что тут марковости совсем нет.
Да бог с ней, с марковостью. Если будет, то какие выводы?
Мне интересно как изменяется корреляция и насколько быстро она убывает (кажется, что убывает, но так ли это вообще?) Допускаются любые разумные предположения о поведении вероятности отдельных букв и парных корреляций.

griz_a

Парные корреляции по сути определяют попарные распределения подряд идущих букв. Это очень слабо влияет на буквы через 1. Поэтому в этих терминах не опишешь.
Ну и убывание будет не везде, с точки зрения жизненной логики.
Если обе буквы редкие, то когда как. А если частые, то, видимо, по модулю убывает

Sensor4ik

Ответ на этот вопрос точно знают авторы программы Punto Switcher и прочих переключалок раскладки.

narkom

советую ознакомится с http://www.inference.phy.cam.ac.uk/mackay/itila/
Много всякого полезного с точки зрения кодирования сообщения.

Damrad

автор случайно не пытается изобрести алгоритм сжатия PPM?

svetik5623190

Мне интересно как изменяется корреляция и насколько быстро она убывает (кажется, что убывает, но так ли это вообще?) Допускаются любые разумные предположения о поведении вероятности отдельных букв и парных корреляций.
я бы начал с изучения порелляций между первой и последней буквой слова
кроме того, было бы любопытно посмотреть на таблицу, в которой по строкам и столбцам откладываются буквы алфавита, а на пересечении строки с столбца стоит число слов, у которых первая буква как во всём столбце, а последняя --- как во всей строке

Logon

число слов
тема забавная, чесслово... но хоть кто-то может хотя бы примерную цифирь - это самое "число слов" озвучить.
ЗЫ, Не математик, но подозреваю, что в одних случаях корреляция будет просто великолепная (для букв типа й, ь,ъ и прочих редкостей для других отследить будет сложно

narkom

а что тут собстенно изучать? Берешь какое-нибудь произведение и вычисляешь все эти корреляции опытным путем.

Sensor4ik

Берешь какое-нибудь произведение
В качестве эталонного произведения лучше всего подойдет словарь Даля.

Suebaby

В качестве эталонного произведения лучше всего подойдет словарь Даля.
нет
потому что слова употребляются с существенно разной частотой
я однажды занимался данной проблемой с целью генерации последовательностей букв, похожих на слова
я строил зависимость буквы от трёх предыдущих. использовал какой-то частотный словарь вроде

lena1978

это зависит от точной формулировки задачи.

seregaohota

Все нваенро знюат, что в салвох для четнея бувкы мугот заинамть лбыюе метса, кмрое перовй и последенй
Оставить комментарий
Имя или ник:
Комментарий: