Моделът може да превежда почти 100 входни и 35 изходни езика.
Днес в света се говорят над 7000 езика. Средностатистическият човек знае поне два езика. Най-вероятно единият от тях е майчиният им език, а другият е език, който са им преподавали в училище.
Езикът е една от най-големите бариери пред разбирането на други хора, култури и общности. И докато всички ние бихме искали да имаме уменията на полиглот, вероятно не можем да научим всичките 7000 езика, които светът може да предложи.
Точно тук идва моментът, да се обърнем към технологията.
Обучен на 270 000 часа реч и текст
Meta въвежда многоезичен модел за превод и транскрипция на текст и реч. Наречен SeamlessM4T, той може да изпълнява общо пет задачи: реч към текст, реч към реч, текст към реч, преводи от текст към текст и разпознаване на реч.
Въпреки че може да извършва разпознаване на реч и превод само за почти 100 входни и 35 изходни езика, той е една стъпка по-близо до обединяването на общности. Например, можете да въведете говор „Good morning“ на английски и това ще даде модел на изход „Bonjour“, когато изберете френски.
„Светът, в който живеем, никога не е бил по-взаимосвързан, давайки на хората достъп до повече многоезично съдържание от всякога. Това също прави способността за общуване и разбиране на информация на всеки език все по-важна“, казва Meta в изявление.

Meta
Модел с отворен код
SeamlessM4T може да бъде от полза за някой, който иска да научи нов език или е в нова страна, в която не знае местния език.
Оставайки верен на своя подход с отворен код, Meta качва колекцията от модели под SeamlessM4T на HuggingFace, платформа, която позволява на разработчиците и компаниите да качват своите модели за машинно обучение. Моделът се предлага в две контролни точки с различни размери – SeamlessM4T-Medium и SeamlessM4T-Large, което позволява на разработчиците и изследователите да надграждат върху тази работа.
Meta също така пуска набора от данни, на който е обучен SeamlessM4T. Нарича се SeamlessAlign и според Meta това е „най-големият открит мултимодален набор от данни за превод до момента, възлизащ на общо 270 000 часа подравнения на реч и текст“.
Създаден на базата на предишни подобни модели
Най-новият модел на Meta е изграден върху други нейни предишни модели, като No Language Left Behind (NLLB), модел за превод от текст към текст, който поддържа 200 езика, и Universal Speech Translator, която е първата система за директен превод от реч към реч за хокиен, предимно устен език, говорен в китайската диаспора.
Meta пуска и модела Massively Multilingual Speech, който може да идентифицира над 4000 говорими езика и предоставя технология за разпознаване на реч, езикова идентификация и синтез на реч на повече от 1100 езика.
Все по-близо до универсален езиков преводач
Пионер в тази област, Google е средство за превод на статия или преобразуване на реч от един език на друг. Технологичната фирма сега изгражда Universal Speech Model (USM), за да поддържа езици, които се говорят от ограничен брой хора.
Задвижваният от AI модел ще поддържа 1000 езика, с 2B параметри, обучени върху 12 милиона часа реч и 28 милиарда изречения текст. Това също би подобрило софтуера на YouTube за автоматично разпознаване на реч, използван за създаване на субтитри в движение.
Тъй като SeamlessM4T покрива само малка част от всички глобални езици, моделът може да се счита за стъпало към универсален езиков преводач. ChatGPT на OpenAI може да разговаря на 95 езика. Bard на Google може да говори 40 езика.
Колкото и бърз да е темпът на технологиите, особено в областта на изкуствения интелект и генеративното AI пространство, трябва да извървим дълъг път в създаването на инструмент, който може безпроблемно да превежда на всички езици.
Източник: InterestingEngineering

































