Пт. Июл 10th, 2020

Google запустил BERT для большего количества языков

Одним из самых больших последних обновлений Google является BERT. За этой аббревиатурой стоит термин «Двунаправленные кодирующие представления от трансформаторов». Цель BERT — помочь Google лучше понять естественный язык, включив взаимосвязь между терминами в поисковые запросы.

Первоначально программа BERT была развернута только для английского языка, хотя Google объяснил, что алгоритм может также переносить изученное на другие языки. Исключение составляют фрагменты: BERT уже используется для большого количества языков. Были разговоры о 24 странах.

Теперь Google, очевидно, распространил BERT на другие страны. Дэнни Салливан из Google объяснил это через Twitter по запросу. Сначала он писал, что BERT влияет только на характерные фрагменты за пределами английского языка. Через несколько минут он исправил это и написал, что BERT действительно был расширен. Пока не известно, на какие языки BERT был распространен BERT. Эта информация обязательно последует в ближайшее время.

Обновление 22:44: Google опубликовал список дополнительных языков, для которых BERT теперь активен. Включены также немецкий язык, а также албанский, амхарский, арабский, армянский, азербайджанский, баскский, белорусский, болгарский, каталонский, китайский (упрощенный и тайваньский), хорватский языки, голландский, венгерский, греческий, гуджаратинский, датский, индонезийский, иврит, греческий, иврит, исландский, индонезийский, итальянский, яванский, гуджарати, фарси, финский, финский, французский, чешский, эстонский, чешский, японский, финский, эстонский, латышский, казахский, канарский, кхмерский, корейский, курдский, кыргызский, лаосский, литовский, македонский, малайский, малайский, мальтийский, маратхийский, монгольский, непальский, норвежский, польский, португальский, кыргызский, литовский, кхмерский, Пенджаб, румынский, русский, сербский, сингхальский, словацкий, словенский, суахили, шведский, тагалог, таджикский, тамильский, тамильский, телугу, тайский, турецкий, украинский, урду, узбекский и вьетнамский языки.