Все новости
НАУКА 3.0
17 Июля 2023, 13:20

«В любом деле важен словарь».

Активист башкирского языка объявил о завершении самого масштабного лексического онлайн проекта в тюркском мире.

1.

— "What's up, Doc?"
— That's all Folks!
Вот и всё, ребята.
Думаю, что цифровую лексическую кодификацию башкирского языка можно считать завершенной.
Похоже, я внёс в онлайн основную массу слов и толкований башкирского языка, проверьте:
https://glosbe.com/ba/ru/.

Иначе говоря, теперь уже, наконец-то, можно говорить утвердительно о том, что словарь является абсолютно полным, что, в общем, и было нашей целью.
Теперь можно без проблем переводить что угодно с/на башкирский.

Тем самым, я надеюсь, открывается новая светлая страница в жизни башкирского языка.

Выгружаемая база данных словарного фонда может принести пользу и в других диджитал-проектах в будущем. Кроме того, на самой платформе всё время появляется какой-то новый функционал. Вот, например, недавно появилась возможность добавления незнакомых переводов в игру с флеш-карточками по системе Лейтнера для лучшего запоминания (нажимаемые сердечки возле каждого слова).

На этот момент в русско-башкирском электронном словаре содержится 390 тысяч слов и фраз и 750 тыс. параллельных двуязычных примеров словоупотреблений в виде предложений.

К сведению, в крупнейшем Толковом словаре живого великорусского языка Даля содержится около 220 тыс. слов.
Я нашел и оцифровал около 200 словарей башкирского языка, изданных в разные времена, чтобы добавить их содержание в единую базу. Вот их список: https://disk.yandex.ru/d/tKN0PFfm4OW18A.

Идея была в том, чтобы из всего этого наследия собрать супермега словарь словарей.
Последний «бумажный» словарь, который был оцифрован и загружен в базу данных – это Академический 10-томник под ред. Хисамитдиновой Ф.Г. (Уфа, Китап, 2011-2018) на примерно 8 тыс. книжных страниц суммарно. Там в каждом томе содержится примерно 12-13 тыс. слов со значениями и примерами из художественных произведений и периодической печати. Это издание вобрало в себя во многом все предыдущие словарные проекты XX века, потому было важно его освоить. Если все эти 10 томов положить на весы, то, наверное, килограммов 30 выйдет. Подробнее об этом многотомнике здесь: https://www.bashinform.ru/news/culture/2019-02-08/pre..

Единственный минус этого издания, на мой взгляд, в том, что в нем отсутствует русский словник, т.е. нет какой-либо навигации по русскому вокабуляру. Электронная версия, конечно, снимает этот недостаток.

Самая же главная особенность словаря Glosbe заключается в том, что он работает по коллективному принципу wiki, т.е. слова туда может добавлять или уточнять дефиниции кто угодно, однако они в словарных статьях будут распределены релевантно частотности употребления в языке. Таким образом, словарь можно назвать истинно народным и живым, независимым от какого-либо академического начальства и чиновников от языка. Кстати, в пользу важности этого аспекта говорит хотя бы тот факт, что в официальном башкирском языкознании не существует какого-либо словаря или хотя бы исследования по теме обсценной, ненормативной лексики. В Советском Союзе секса не было, а башкиры не матерятся.

2.

Я пишу на русском, потому что хочу обратиться, прежде всего, к тем, кто находится в процессе или кто только хотел бы начать изучать башкирский язык. Именно для них я старался, и для их детей. Теперь, я надеюсь, это должно быть проще и увлекательнее.
Удобный хороший словарь в телефоне размывает границы или даже пропасть между башкирами носителями и неносителями языка, по крайней мере, в письменной речи точно.

Во время работы над словарем мне попадались очень необычные и странные слова, о существовании которых не подозревал ни я, ни мои башкирские друзья и знакомые.

Я встречал слова-рекордсмены по многозначности и смыслоёмкости с более чем 150 различных вариантов перевода, например:
алыу, сығарыу, йомшаҡ, асыҡ, ауыр, килеү, төшөү, һалыу, яныу и др. Задайте их для интереса.

Я открывал для себя много загадок и тайн. Вот, например, у меня всегда вызывало недоумение, почему в башкирском «пчела» это бал ҡорто, т.е. медовое насекомое, а у остальных тюркских народов это разные вариации от «ari». И, дойдя до самого конца алфавита, до буквы Ә, я выясняю, что «әри» в башкирском ‑ это не что иное, как трутень, т.е. самец обыкновенной медоносной пчелы!

Часто я встречал примерно такую реакцию на слова: «о, любопытно, впервые слышу» или «а у нас говорят по-другому». Я думаю, это связано с тем, что башкирский этнос формировался на очень обширных и разных географических пространствах, было более 40 различных родоплеменных образований и за тысячи лет прошло много миграционных волн в этих краях, начиная с путешествий сюда персов, а потом и арабских миссионеров в X в. К слову, в европейских языках тоже очень много арабо-персидских заимствований. Интернета тогда у башкир не было, книг особо тоже, но зато сейчас всё есть.

Мой отец, в переводе которого издано уже немало башкирских романов, повестей и рассказов, говорит, что заглядывает в глосби-словарь чтобы подыскать наиболее подходящий к контексту синоним, коих там обычно можно встретить немало.

Боюсь показаться нескромным, но, кажется, башкирский словарь в Glosbe в самом деле получился самым полным и большим среди языков народов тюркского мира. Пусть меня поправят знатоки.

Самый большой русско-турецкий словарь, который я когда-либо видел – в нём 250 тыс. слов: https://vk.com/topic-41267414_38530453
Электронный академический словарный фонд татарского языка: https://suzlek.antat.ru/ (70 источников, точный объем неизвестен, но не более 300 тыс.).
Самый большой казахский словарь в Интернете: https://sozdik.kz/ (60 тыс. слов, проект делает один русский частный человек из Алматы).

Я начал работу по составлению своего словаря осенью 2017 г. У меня ушло 6 лет на этот проект.

Друзья, подбадривая меня, говорили: «бөртөкләп йыйыла алтын» (золото собирается по крупицам), но я больше представлял себя неким собирателем разноцветного конструктора Lego, который строит гигантский мегаполис из мелких деталей. Кто знает, может в будущем, какой-нибудь искусственный интеллект сможет создать из этого конструктора целую вселенную, навроде эпоса Урал Батыр или мира волшебников и чародеев Гарри Поттера. Ведь вход в искусственный разум пролегает через лингвистические машины.

Кстати, вторая часть статистики словаря, а именно 750 тыс. параллельных пар предложений в качестве примеров словоупотреблений используется IT-корпорациями для обучения нейросетевых переводческих систем. Размер параллельного корпуса тоже является показательным с точки зрения оцифрованности языка и мало у каких народов он вообще имеется.

Сейчас я могу сказать, что мне, по крайней мере, не будет стыдно, если учительница башкирского языка предложит на своем уроке детям заглянуть в этот словарь. И мне хочется верить, что я смог в цифровом виде доказать теорему Рами Ягафаровича:
«Бер телдән дә телем кәм түгел – көслө лә ул, бай ҙа, яғымлы ла. Кәм күрер уны тик кәм күңел...» Кстати, Рами Гарипов тоже начал собирать свой словарь, но не завершил.

На самом деле, все языки народов РФ очень богатые, вопрос только в том, кому в каком объеме удастся их оцифровать.


3.

Предвосхищая вопросы о финансировании и энтузиазме, сразу скажу, что мы много лет пытались участвовать в грантах Главы Республики Башкортостан по сохранению и развитию языков народов, но поддержки не получили. Если кто не знал, словарная работа считается одной из самых трудоёмких и скрупулёзных в лингвистике, поэтому мало кто вообще может этим заниматься, и мало у каких народов есть хорошие электронные словари, доступные со смартфона.

Кстати, никто не знает, какими электронными словарями официально рекомендует пользоваться Министерство образования при изучении башкирского как государственного? Я слышал, что вроде в соответствии с российскими СанПиНами пользоваться смартфонами в образовательных целях в школе вообще запрещено.

Наша следующая цель – не просто появление башкирского в Google Translate, это уже стало делом времени, а чтобы качество перевода было очень хорошее. Чтобы, к примеру, одним нажатием можно было бы перевести Винни-Пуха с английского на башкирский, и никто бы из детей не догадался, что Пух это на самом деле вовсе не башкирский медвежонок. К примеру, татарский хоть и присутствует формально в гугле, но мало кто этим пользуется, потому что выходит очень много ошибок.

Среди других наших проектов – создание татаро-башкирского конвертера, с помощью которого можно автоматически превращать любой татарский текст в башкирский и наоборот. И много чего ещё.

Пишите комментарии. Попробуйте написать на башкирском, используя словарь. И не беда, если будет не складно.


Искандер ШАКИРОВ

Источник: ihtika

Читайте нас: