добавлю.
Как-то мы с иностранными партнерами в Тобольске пили пиво, чуть с опозданием подошли коллеги, приехавшие в этот день из Москвы. Из-за шума и пива, со временем образовалось несколько кружков общения по интересам. Я с московским коллегой поговорил на русском, буквально 3-4 предложения, выслушал ответы на заданные вопросы и обратно повернулся к компании. Так вот, немец один был сильно удивлен: "Как вы друг друга понимаете?? Ведь ты из Сибири, а он из Москвы! Да у нас люди с севера Германии не понимают тех кто на юге живет." (естественно это все на английском языке). Ответ был прост: "Потому что мы русские!"
(и совсем не важно, что его зовут Ильдар)
В Европе так и есть:) Даже в крохотной Дании несколько диалектов с отличающимся произношением.Если перенести эту ситуацию на Россию, то Питер и Москва писали и говорили бы на совершенно разном русском и не всегда могли понять друг друга. Но, меня удивили греки, сказав, что в греческом нет диалектов по стране (для европейских стран явление редкое), чуть-чуть иначе звучит греческий на Кипре. Тогда как в Лондоне, можно насчитать больше 10 различных диалектов английского.
А мне понравилась статейка, занимательно.
Из своего опыта вспомнилось во время чтения следующее:
Поляк, с которым я работал, удивлялся "Почему у вас в русском языке так?
- в Японии японцы,
- во Франции французы,
- в Польше поляки,
- а в Германии немцы? "
1) Гугль переводчик работает с моделированием универсального машинного перевода с применением принципа нейронных сетей.
Если коротко - то всё пытается перевести в гибкий машынный язык понятий и форм а из него уже на тот язык что нужен клиенту.
Если проект доведут до ума то сформируется некий универсальный язык имеюий максимально возможную ёмкость понятий и позволяющую полностью переводить смысл с любого языка. Не факт что язык будет пригоден для людей но сам принцип нмного пугает - ведь язык это модель мышления а у гугльтанслитера он будет совершенным по определению ибо включит всё что есть в языках мира полностью и сохранит в оптимальной и самой богатой форме.
Страшно даже как то.
2 ) есть сленги в Русскоязычных сообщесвах которые мягк говоря тяжелы для понимания и изучения. Например Сленг Русскоязычного сообщества игры EVA крайне сложен для начиающего игрока и сравним с изучением скажем английского.
" Подбери шип подходящий, определись с типом танка — пассив/актив, скилы учи на капу, шилд/армор резы, реген и объём шилда/работу с репками и вперёд. Танкуй хоть до посинения. Я вон написал про две T2 репы и харднера в домике. 5 капречей T2, CCC, и капа не кончается вообще. Аукс нано памп даёт прибавку в 10 % к репкам. На миске агришь группу, выпускаешь T2 огров и сидишь форумы читаешь.
о/, харош кемпить на гейте, точку в алли я заинвайчу в ганг и варп на гейт ЕЦ, проваливаемся и на меня в ноль, я на мальке, держу апок, меня дроны пилят.
"
Я вас умоляю, "машинный перевод с применением принципа нейронных сетей" - это все равно что "составление музыкального произведения с помощью алгебры и теории чисел". Звучит мудрено и, на первый взгляд, даже логично. Но вдаваясь в детали...
Спасибо за ссылки, удалось даже найти статью-первоисточник (на английском языке).
Итого по статье вполне ожидаемо. Люди получили в свое распоряжение охе**нные вычислительные ресурсы и столько же денег. В лингвистику они вникать не стали, да и зачем им наукой заниматься? Скажем, в русском языке есть семантический словарь Зализняка, аналогичные есть и в других языках. Синтаксис? Грамматика? Это для слабаков. Ученые из Гугла решили сделать прорыв!
Итак. Сначала обучается меганейросеть на большом количестве слов и устойчивых фраз из разных языков. Со временем она начинает сопоставлять слова и выражения из разных языков, в том числе из тех пар языков, в которых обучения не было. Это нормально, и это фаза обучения.
Далее. Указывается предложение для разбора и целевой язык (исходный не указывается, это - для слабаков из лингвистики). Все предложение разбивается на последовательные фразы в прямом и обратном направлении (а то плохо у них получалось сначала). Далее рассматриваются все словосочетания, которые попали в базу нейросети в качестве входов. Все, что приходит в голову нейросети из целевого языка, заменяется слово на слово, словосочетание на словосочетание. Грамматика? Синтаксис? Словоформы? Не, не слышали. Просто тупо замена одного слова на другое. И примерная оценка точности перевода на основании статистики нейросети.
Вот так и переводим. Очевидно, что еще хоть как-то получается на языках сходной группы (английский-французский, корейский-японский, русский-белорусский). Полагаю, что на языках разных групп не получается никак.
Вывод. Сколько в колодец не плюй, он все равно в лес смотрит.
И Почему в вашем ответе слышится сакраментальное " Ну тупыыые ! " ?
В прочем возможно вы правы и компания не посчитала нужным вникать.
-Хотя подозреваю что там не глупее нас с вами люди работают и на подобные решения были причины.
Например предположение что языки это форма передачи информации, в конечном счёте, а так-как реальность и мозги у всех примерно одни и те же, то и информация в конечном счёте может иметь универсальную форму. К чему и стремятся нагло отбрасывая всё лишнее с их точки зрения.
Если представить что с точки зрения сотрудников гугля английский это идеальный язык на котором должны в идеале все думать и говорить, а абсолютная цель сделать проще общение высших носителей английского с заведомо более примитивными носителями иных языков, а все недопонимания свести к игнорированию отставания всех вокруг от американской культуры, то вышеприведённая мной точка зрения вполне оправдана.
"Почему в вашем ответе слышится сакраментальное " Ну тупыыые ! " ?"
Про всех не скажу, а про этих конкретно умников - скажу. Подход абсолютно безграмотный с точки зрения матмоделирования и лингвистики. А нейросети притянуты за уши - помню свой первый опыт работы с ними, тогда тоже было ощущение, что в них можно "запихать" абсолютно все, а они "научатся" и будут давать правильный результат. Разумеется, полученная мной сборная солянка опровергла все "высокие идеи".
"Например предположение что языки это форма передачи информации, в конечном счёте, а так-как реальность и мозги у всех примерно одни и те же, то и информация в конечном счёте может иметь универсальную форму."
Вроде как они в статье и пишут, что оценивают "дух" предложений и добавили модуль Attention, который как раз и занимается тонкостями выбора слов из синонимичного ряда. Видимо, попереводили с английского на японский, получили грубую и неотесанную белиберду, получили от японцев в лоб. С ноги, например.
"Если представить что с точки зрения сотрудников гугля английский это идеальный язык на котором должны в идеале все думать и говорить..."
Нет-нет, в этом отношении там все довольно адекватно. Они просто поняли, что после непрямых переводов по цепочке, например, Ru-En-Jp смысл предложений теряется полностью. Кто-то подсчитал, что даже для 100 языков (а в Гугле их уже 130) потребуется 10000 прямых переводчиков. И они тогда решили строить универсальный переводчик с любого языка на любой. Ну, пусть поиграются пока с нейросетями. Глядишь, к ним нормальные ученые придут и предложат нормальную взвешенную модель дальнейших действий. Можно ведь умно использовать нейросети, а не абы как.
Английских слов все больше и больше в обиходе становится. С появлением интернета просто захлыстнуло. Думаю со временем все языки смешаются в один. Но а основой будет английский язык.
DawsonW
Если рухнет стена с Китаем - будет китайский. Их сегмент больше и более наполненный чем весь остальной тырнет вместе взятый. Да и Русский проникает в другие языки, засилье Английского проистекает из захвата амеровской культурой но это временное явлене, та же японская культура на порядок богаче и явно превосходит амеровскую что доказывается постепенным захватом япами амеровской культуры уже не первый год.
Когда то все были уверены что Французский язык станет языком мира, потом немецкий... А Русский уже пару столетий не международный но по географической распространённости уверено держится в верхней части списка не смотря на весьма скромные показатели самой России по мировым масштабам.
Если судить по доли языков в том же интернете, то более 50 процентов это сайты на английском языке. Просто численности не достаточно. У Китайцев нет такой "заразной" культуры, в отличие от американской) Американская она как то по всему миру успешно пошла. Да и туристы в основном учат английский, куда бы не поехали. Все таки показатель.Пока так, да и тенденция не снижается.
Эх, ТАНЧЕК!
Ты думаешь, что если заменил первоисточник словом ФИШКИ и указал автора, то не нарушил права собственности? Действительно, автор - Тата Олейник, но все права на данный материал принадлежат конкретному изданию, о котором ты почему-то (надеюсь, из скромности) не упомянул. Ай-яй-яй! :)
Не из скромности))) боюсь предубеждений местных жителей против "глянца" (я с этим сталкивалась). В конце концов, статья в открытом доступе и журнал MAXIM по своим убеждениям не против:)
Потому, что Танчек - это почти танчик, небольшой танк.
А мужики почти все поголовно - "танкисты" (игра есть такая - WoT), поэтому такая ассоциация
Чтобы избежать, предлагаю ник сменить на TANECHK:)
Кстати, портной - портниха, повар - повариха, ткач - ткачиха, ну а врач - женщина врач, типа доктор Куин... Врачиха есть, а слова нет! Может стоит врачиху узаконить???
Отвал башки был для окружающих в метро (90-е годы), когда они услышали разговор двух комп-железячников.
Ты чего такой печальный?
Да мать сдохла. Всю ночь с ней трахался, а потом мозги вытащил, а её скинул на рынке.
184 комментария
8 лет назад
Как-то мы с иностранными партнерами в Тобольске пили пиво, чуть с опозданием подошли коллеги, приехавшие в этот день из Москвы. Из-за шума и пива, со временем образовалось несколько кружков общения по интересам. Я с московским коллегой поговорил на русском, буквально 3-4 предложения, выслушал ответы на заданные вопросы и обратно повернулся к компании. Так вот, немец один был сильно удивлен: "Как вы друг друга понимаете?? Ведь ты из Сибири, а он из Москвы! Да у нас люди с севера Германии не понимают тех кто на юге живет." (естественно это все на английском языке). Ответ был прост: "Потому что мы русские!"
(и совсем не важно, что его зовут Ильдар)
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
Из своего опыта вспомнилось во время чтения следующее:
Поляк, с которым я работал, удивлялся "Почему у вас в русском языке так?
- в Японии японцы,
- во Франции французы,
- в Польше поляки,
- а в Германии немцы? "
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
1) Гугль переводчик работает с моделированием универсального машинного перевода с применением принципа нейронных сетей.
Если коротко - то всё пытается перевести в гибкий машынный язык понятий и форм а из него уже на тот язык что нужен клиенту.
Если проект доведут до ума то сформируется некий универсальный язык имеюий максимально возможную ёмкость понятий и позволяющую полностью переводить смысл с любого языка. Не факт что язык будет пригоден для людей но сам принцип нмного пугает - ведь язык это модель мышления а у гугльтанслитера он будет совершенным по определению ибо включит всё что есть в языках мира полностью и сохранит в оптимальной и самой богатой форме.
Страшно даже как то.
2 ) есть сленги в Русскоязычных сообщесвах которые мягк говоря тяжелы для понимания и изучения. Например Сленг Русскоязычного сообщества игры EVA крайне сложен для начиающего игрока и сравним с изучением скажем английского.
" Подбери шип подходящий, определись с типом танка — пассив/актив, скилы учи на капу, шилд/армор резы, реген и объём шилда/работу с репками и вперёд. Танкуй хоть до посинения. Я вон написал про две T2 репы и харднера в домике. 5 капречей T2, CCC, и капа не кончается вообще. Аукс нано памп даёт прибавку в 10 % к репкам. На миске агришь группу, выпускаешь T2 огров и сидишь форумы читаешь.
о/, харош кемпить на гейте, точку в алли я заинвайчу в ганг и варп на гейт ЕЦ, проваливаемся и на меня в ноль, я на мальке, держу апок, меня дроны пилят.
"
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
https://www.iguides.ru/blogs/googleblog/android-game-lego-harry-potter/https://www.iguides.ru/blogs/googleblog/android-game-lego-harry-potter/
большая статья :
https://geektimes.ru/post/282976/https://geektimes.ru/post/282976/
Удалить комментарий?
Удалить Отмена8 лет назад
Итого по статье вполне ожидаемо. Люди получили в свое распоряжение охе**нные вычислительные ресурсы и столько же денег. В лингвистику они вникать не стали, да и зачем им наукой заниматься? Скажем, в русском языке есть семантический словарь Зализняка, аналогичные есть и в других языках. Синтаксис? Грамматика? Это для слабаков. Ученые из Гугла решили сделать прорыв!
Итак. Сначала обучается меганейросеть на большом количестве слов и устойчивых фраз из разных языков. Со временем она начинает сопоставлять слова и выражения из разных языков, в том числе из тех пар языков, в которых обучения не было. Это нормально, и это фаза обучения.
Далее. Указывается предложение для разбора и целевой язык (исходный не указывается, это - для слабаков из лингвистики). Все предложение разбивается на последовательные фразы в прямом и обратном направлении (а то плохо у них получалось сначала). Далее рассматриваются все словосочетания, которые попали в базу нейросети в качестве входов. Все, что приходит в голову нейросети из целевого языка, заменяется слово на слово, словосочетание на словосочетание. Грамматика? Синтаксис? Словоформы? Не, не слышали. Просто тупо замена одного слова на другое. И примерная оценка точности перевода на основании статистики нейросети.
Вот так и переводим. Очевидно, что еще хоть как-то получается на языках сходной группы (английский-французский, корейский-японский, русский-белорусский). Полагаю, что на языках разных групп не получается никак.
Вывод. Сколько в колодец не плюй, он все равно в лес смотрит.
Удалить комментарий?
Удалить Отмена8 лет назад
И Почему в вашем ответе слышится сакраментальное " Ну тупыыые ! " ?
В прочем возможно вы правы и компания не посчитала нужным вникать.
-Хотя подозреваю что там не глупее нас с вами люди работают и на подобные решения были причины.
Например предположение что языки это форма передачи информации, в конечном счёте, а так-как реальность и мозги у всех примерно одни и те же, то и информация в конечном счёте может иметь универсальную форму. К чему и стремятся нагло отбрасывая всё лишнее с их точки зрения.
Если представить что с точки зрения сотрудников гугля английский это идеальный язык на котором должны в идеале все думать и говорить, а абсолютная цель сделать проще общение высших носителей английского с заведомо более примитивными носителями иных языков, а все недопонимания свести к игнорированию отставания всех вокруг от американской культуры, то вышеприведённая мной точка зрения вполне оправдана.
Удалить комментарий?
Удалить Отмена8 лет назад
Про всех не скажу, а про этих конкретно умников - скажу. Подход абсолютно безграмотный с точки зрения матмоделирования и лингвистики. А нейросети притянуты за уши - помню свой первый опыт работы с ними, тогда тоже было ощущение, что в них можно "запихать" абсолютно все, а они "научатся" и будут давать правильный результат. Разумеется, полученная мной сборная солянка опровергла все "высокие идеи".
"Например предположение что языки это форма передачи информации, в конечном счёте, а так-как реальность и мозги у всех примерно одни и те же, то и информация в конечном счёте может иметь универсальную форму."
Вроде как они в статье и пишут, что оценивают "дух" предложений и добавили модуль Attention, который как раз и занимается тонкостями выбора слов из синонимичного ряда. Видимо, попереводили с английского на японский, получили грубую и неотесанную белиберду, получили от японцев в лоб. С ноги, например.
"Если представить что с точки зрения сотрудников гугля английский это идеальный язык на котором должны в идеале все думать и говорить..."
Нет-нет, в этом отношении там все довольно адекватно. Они просто поняли, что после непрямых переводов по цепочке, например, Ru-En-Jp смысл предложений теряется полностью. Кто-то подсчитал, что даже для 100 языков (а в Гугле их уже 130) потребуется 10000 прямых переводчиков. И они тогда решили строить универсальный переводчик с любого языка на любой. Ну, пусть поиграются пока с нейросетями. Глядишь, к ним нормальные ученые придут и предложат нормальную взвешенную модель дальнейших действий. Можно ведь умно использовать нейросети, а не абы как.
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
Если рухнет стена с Китаем - будет китайский. Их сегмент больше и более наполненный чем весь остальной тырнет вместе взятый. Да и Русский проникает в другие языки, засилье Английского проистекает из захвата амеровской культурой но это временное явлене, та же японская культура на порядок богаче и явно превосходит амеровскую что доказывается постепенным захватом япами амеровской культуры уже не первый год.
Когда то все были уверены что Французский язык станет языком мира, потом немецкий... А Русский уже пару столетий не международный но по географической распространённости уверено держится в верхней части списка не смотря на весьма скромные показатели самой России по мировым масштабам.
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
Ты думаешь, что если заменил первоисточник словом ФИШКИ и указал автора, то не нарушил права собственности? Действительно, автор - Тата Олейник, но все права на данный материал принадлежат конкретному изданию, о котором ты почему-то (надеюсь, из скромности) не упомянул. Ай-яй-яй! :)
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
А мужики почти все поголовно - "танкисты" (игра есть такая - WoT), поэтому такая ассоциация
Чтобы избежать, предлагаю ник сменить на TANECHK:)
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
Удалить комментарий?
Удалить Отмена8 лет назад
А люди пользуются
Удалить комментарий?
Удалить Отмена8 лет назад
Коза-козёл, оса-...
Удалить комментарий?
Удалить Отмена8 лет назад
Ты чего такой печальный?
Да мать сдохла. Всю ночь с ней трахался, а потом мозги вытащил, а её скинул на рынке.
Удалить комментарий?
Удалить Отмена