Как настроить мобильное приложение. Как установить мобильное приложение сбербанк онлайн на андроид

Михаил Ежов — сооснователь блокчейн-сервиса по распознаванию и анализу речи Anryze

«Мы посчитали, если сравнить банк сегодня и Сбербанк пять лет назад, то примерно 50% тех решений, которые принимались людьми, сегодня принимаются машинами. И через пять лет, мы считаем, мы сможем принимать примерно 80% всех решений автоматически с помощью искусственного интеллекта».

Сегодня нейросети позволяют анализировать финансовые транзакции, собирать и использовать информацию о клиентах, формировать уникальные пакеты предложений и услуг для конкретного пользователя, принимать осознанные решения о выдаче кредитов и даже бороться с мошенничеством.

Основные понятия

Термин «машинное обучение» включает в себя любые попытки научить машину улучшаться самостоятельно — например, обучение на примерах или обучение с подкреплением. Машинное обучение — процесс, связанный с вводом и выводом данных, предполагающий использование некой математической модели — алгоритма.

Искусственная нейронная сеть , или «нейросеть», — частный случай машинного обучения, компьютерная программа, работающая по принципу человеческого мозга: она проводит входящие данные через систему «нейронов», более простых программ, взаимодействующих между собой, после чего выдает результат вычислений на основе этого взаимодействия. Любая нейросеть самообучаема и может использовать накопленный в ходе работы опыт.

Нейросети и алгоритмы машинного обучения позволяют повысить ценность данных: искусственный интеллект может их не только сохранять, но анализировать и систематизировать, выявлять закономерности, недоступные при самостоятельном анализе большого массива информации. Благодаря последней особенности нейросети умеют моделировать и предсказывать события, основываясь на предыдущем опыте.

Смена парадигмы предоставления банковских услуг в России и в мире

Стремясь выделиться среди конкурентов и завоевать внимание целевой аудитории, банковские компании переходят от пассивного взаимодействия с клиентом к проактивному. Банки создают новые сервисы, продвигают новые услуги и пакеты услуг, опираются на принцип клиентоориентированности — предлагают каждому именно то, в чем он заинтересован, подбирают индивидуальные предложения по кредитам. Развитие решений, основанных на использовании нейросетей, идет в нескольких направлениях. Появляются умные помощники, которые позволяют быстро получить нужную информацию или принять решение, — например, Telegram-бот банка «Райффайзен» поможет найти ближайшее отделение и узнать, работает ли оно по субботам. Совершенствуются решения, связанные со скорингом, — интеллектуальной оценкой кредитной истории клиента. Онлайн-сервис Scorista оценивает благонадежность заемщиков МФО. Инструмент для автоматизации деятельности МФО Credit Sputnik включает в себя интеграцию с продуктами поставщиков кредитных историй ОКБ, Equifax, «Русский Стандарт», сервисом ФССП.

Стартапы разрабатывают системы смарт-контрактов — построенные на технологии блокчейна агенты, поведение которых автоматизировано и определено математической моделью. Смарт-контракты, описывая договор любой сложности, автоматически исполняются на каждом этапе, выполняя определенный набор условий. При этом изменить или стереть историю сделки невозможно. Британский банк Barclays внедряет такую технологию, чтобы регистрировать переход права собственности и автоматически перечислять платежи в другие кредитно-финансовые учреждения.

Нейросети позволяют эффективно обрабатывать данные о клиентах и пользователях услуг. Многие современные стартапы — американская система Brighterion, системы iPrevent и iComply — основаны на применении подхода Know Your Customer (KYC). Суть подхода — в подробном анализе поведения клиента. Сбор данных о поведении помогает составить полное представление о клиенте и обеспечить более персонализированный сервис. А еще подобное позволяет выявлять отклонения от стандартного паттерна и распознавать несанкционированные действия с аккаунтом.

Именно эту идею взяли за основу разработчики приложения Sense от «Альфа-Банка». Сервис — финансовый помощник, который напомнит о платежах по кредиту или за коммунальные услуги, подскажет, как сократить расходы, и даст совет — например, какое такси лучше заказать или где купить цветы.

Искусственный интеллект для повышения индекса лояльности клиентов

Оценивать можно не только клиентов, но и самих сотрудников банка — чтобы иметь возможность постоянно совершенствовать качество предоставляемых услуг. И тут на помощь снова приходят нейросети: централизованные сервисы Amazon Connect, Google Cloud Speech API или платформа Anryze, использующая распределенные вычисления на базе блокчейна, позволяют расшифровывать телефонные переговоры в текст и обрабатывать полученную информацию. Записи телефонных разговоров позволяют контролировать деятельность сотрудников, дорабатывать скрипты продаж, выявлять ошибки и повышать лояльность клиентов за счет определения и решения основных проблем коммуникации. Текстовый формат обеспечивает больше возможностей для анализа информации: например, поиск по ключевым словам.

Скоринг: нейросети для оценки рисков в кредитовании

Скоринг (англ. score — «счет») — это система и метод оценки рисков по кредитам, а также управление рисками на основе прогноза вероятности просрочки конкретным заемщиком платежа по кредиту. Использование систем скоринга на базе технологий машинного обучения позволяет автоматизировать процесс выдачи кредитов. На сегодняшний день скоринговые решения используют «Банк Москвы», «Юниаструм Банк», банк МДМ, «Росгосстрах» и «Хоум Кредит». «Бинбанк» ведет проекты по включению в анализ данных телекоммуникационных компаний и информации из социальных сетей, чтобы принимать решения по кредиту на основании максимального количества информации о каждом клиенте.

Нейросети для автоматизации рутинных процессов и оптимизации сложных задач

Современные алгоритмы машинного обучения способны автоматизировать некоторые рутинные этапы процесса AML (Anti Money Laundering): создание и подготовку отчетов, рассылку уведомлений, отбор счетов и транзакций по определенным вызывающим подозрение параметрам. Подобную систему — SAS AML — в прошлом году внедрил «Тинькофф-банк» : за счет автоматизации удалось перераспределить человеческие ресурсы с необходимого контроля на непосредственное расследование криминальных схем и повысить индекс выявления подозрительных операций на 95%.

Глубокое обучение: противодействие мошенничеству на базе нейросетей

Ежегодно в мире отмывают от 800 млрд до 2 трлн долларов . Только в США на борьбу с отмыванием денег тратится около 7 млрд долларов в год. С отмыванием боролись вручную, проверяя каждую транзакцию, однако с появлением технологий машинного обучения ситуация изменилась: теперь решить проблему можно с помощью нейросетей.

Нейросети позволяют собирать и анализировать огромные массивы данных — даты и точное время проведения транзакций, географическое положение, информацию о клиенте и поведении клиента. Технологии глубокого обучения используются в системе онлайн-платежей PayPal: чтобы обезопасить клиентов, компания разработала масштабную систему сбора и анализа поведенческих паттернов.

Индийский банк HDFC с помощью SAS Institute внедрил систему, выявляющую мошеннические операции. Американский стартап Merlon Intelligence разработал платформу для выявления подозрительных транзакций с использованием алгоритмов NLP (Natural Language Processing) и в итоге получил финансирование на сумму более 7 млн долларов от венчурного фонда Data Collective.

Что дальше?

Симбиоз «больших данных» и машинного обучения предлагает принципиально новый подход к проблемам сегментации клиентов, выдачи кредитов и составления прогнозов, а также решение широкого спектра аналитических задач. Глубокая интеграция финансовых технологий и искусственного интеллекта в перспективе позволит создать так называемый «умный рынок»: оптимизировать процессы предоставления услуг, сократить издержки на ведение бизнеса, упростить взаимодействие за счет использования смарт-контрактов.

Используя возможности обучаемых нейросетей, общество перейдет к более простой и прозрачной экономике, сможет повысить уровень безопасности и доверия между всеми ее участниками. Если банки хотят сохраниться как институт, им важно воспользоваться всеми преимуществами новых технологий и остаться полезными для клиентов.

Машинное обучение - класс методов искусственного интеллекта , характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решений множества сходных задач. Для построения таких методов используются средства математической статистики, численных методов, методов оптимизации, теории вероятностей, теории графов, различные техники работы с данными в цифровой форме. По данным HeadHunter (данные 2018 года), специалисты по машинному обучению получают 130–300 тысяч рублей, и крупные компании ведут ожесточенную борьбу за них.

2019: 10 лучших языков программирования для машинного обучения - GitHub

В январе 2019 года сервис для хостинга ИТ-проектов и их совместного развития GitHub опубликовал рейтинг самых популярных языков программирования, используемых для машинного обучения (МО). Список составлен на основе количества репозиториев, авторы которых указывают, что в их приложениях используются МО-алгоритмы. Подробнее .

2018: Проблемы машинного обучения - IBM

27 февраля 2018 года технический директор IBM Watson Роб Хай (Rob High) заявил, что в настоящее время основная задача машинного обучения – ограничить объем данных, требующихся для обучения нейросетей . Хай полагает, что есть все основания считать эту проблему вполне разрешимой. Его мнение разделяют и коллеги: так руководитель разработки технологий искусственного интеллекта (ИИ) Google Джон Джаннандреа (John Giannandrea) заметил, что его компания также занята этой проблемой.

Как правило, модели машинного обучения работают с огромными массивами данных, чтобы гарантировать точность работы нейросети, однако во многих отраслях крупных баз данных просто не существует.

Хай, однако, считает, что это проблема разрешима, ведь мозг людей научился с ней справляться. Когда человек сталкивается с новой задачей, в ход идет накопленный опыт действий в подобных ситуациях. Именно контекстуальное мышление и предлагает использовать Хай. Также в этом может помочь технология переноса обучения (transfer learning), то есть возможность взять уже обученную ИИ-модель и использовать ее данные для обучения другой нейросети, данных для которой существенно меньше.

Однако проблемы с машинным обучением этим не ограничиваются, особенно если речь идет об естественной речи.


Хай отмечает, что ИИ не обязательно должен отражать эти аспекты в антропоморфной форме, однако какие-то ответные сигналы, например, визуальные, поступать должны. В то же время большинство ИИ должно для начала разобраться в сути вопросов и научиться ориентироваться в контексте, особенно в том, как данный вопрос связан с предыдущими.

Это указывает на следующую проблему. Многие из использующихся сейчас моделей машинного обучения по своей природе предвзяты, поскольку данные, по которым их обучали, ограничены. Что касается подобной предвзятости, то тут Хай выделяет два аспекта.


В качестве примера Хай привел совместный проект IBM и онкологического центра Sloan Kettering. Они подготовили ИИ-алгоритм, основанный на работе лучших онкологических хирургов.

Однако врачи онкологического центра Sloan Kettering придерживаются определенного подхода к лечению рака. Это их школа, их марка, и эта философия должна быть отражена в созданном для них ИИ и сохранена во всех последующих его поколениях, которые будут распространяться за пределами данного онкоцентра. Большая часть усилий при создании таких систем направлена на то, чтобы обеспечить верную избирательность данных. Выборка людей и их данных должна отражать более крупную культурную группу, к которой они принадлежат.

Хай также заметил, что представители IBM наконец начали регулярно обсуждать эти проблемы с клиентами. По мнению Хая, это шаг в верном направлении, особенно если учесть, что многие его коллеги предпочитают игнорировать этот вопрос.

Опасения по поводу предвзятости ИИ разделяет и Джаннандреа. Осенью прошлого года он заявил, что боится не восстания разумных роботов, а предвзятости искусственного интеллекта. Эта проблема становится тем значительнее, чем больше технология проникает в такие области, как медицина или юриспруденция, и чем больше людей без технического образования начинают ее использовать.

2017

3% компаний используют машинное обучение - ServiceNow

В октябре 2017 года производитель облачных решений для автоматизации бизнес-процессов ServiceNow опубликовал результаты исследования, посвященного внедрению технологий машинного обучения в компаниях. Совместно с исследовательским центром Oxford Economics было опрошено 500 ИТ-директоров в 11 странах.

Выяснилось, что к октябрю 2017 года 89% компаний, сотрудники которых отвечали на вопросы аналитиков, в разной степени используют механизмы машинного обучения.

Так, 40% организаций и предприятий исследуют возможности и планируют стадии внедрения таких технологий. 26% компаний ведут пилотные проекты, 20% - применяют машинное обучение для отдельных областей бизнеса, а 3% - задействуют его для всей своей деятельности.

По словам 53% ИТ-директоров, машинное обучение является ключевым и приоритетным направлением, для развития которого компании ищут соответствующих специалистов.

К октябрю 2017 года наиболее высокое проникновение машинного обучения имеет место в Северной Америке: 72% компаний находятся на какой-либо стадии изучения, тестирования или использования технологий. В Азии этот показатель составляет 61%, в Европе - 58%.

Около 90% ИТ-директоров говорят, что автоматизация повышает точность и скорость принятия решений. По мнению больше половины (52%) участников опроса, машинное обучение помогает автоматизировать не только рутинные задачи (например, вывод предупреждений о киберугрозах), но и более сложные рабочие нагрузки, такие как способы реагирования на хакерские атаки.

Выше представлена диаграмма, показывающая степень автоматизации различных областей в компаниях в 2017 году и с прогнозом на 2020 год. К примеру, в 2017-м около 24% операций в сфере информационной безопасности полностью или в значительной степени автоматизированы, а в 2020 году показатель может вырасти до 70%.

Самая многообещающая технология. Чем вызвано всеобщее помешательство на машинном обучении?

Машинное обучение, по мнению аналитиков, является самым многообещающим технологическим трендом современности. Как возникла эта технология и почему стала столь востребованной? На каких принципах строится машинное обучение? Какие перспективы открывает для бизнеса? Ответы на эти вопросы дает материал, который для TAdviser подготовил журналист Леонид Черняк.

Почему обучение моделей настолько сложное?

Представьте, что я обучаю машину, используя группу людей... и здесь золотое правило состоит в том, что они должны быть в равной степени заинтересованы и ознакомлены с процессом, так что, скажем, я не могу взять пять программистов и четырех вчерашних студентов... Нужно стараться подбирать людей либо совершенно в случайном порядке, либо по одинаковым интересам. Есть два способа сделать это. Вы показываете им много, очень много картинок. Вы показываете им изображения гор вперемежку с фотографиями верблюдов, а также изображения предметов, которые практически в точности похожи на горы, например, мороженое в вафельном стаканчике. И вы просите их сказать, что из этих предметов можно назвать горой. При этом машина наблюдает за людьми и на основании их поведения в процессе выбора изображений с горами она также начинает выбирать горы. Такой подход называется эвристическим, - пишет автор PCWeek Майкл Кригсман

Мы смотрим на людей, моделируем их поведение путем наблюдения, а затем пытаемся повторить то, что они делают. Это вид обучения. Такое эвристическое моделирование представляет собой один из способов машинного обучения , однако это не единственный способ.

Но существует множество простых приемов, с помощью которых эту систему можно обмануть. Прекрасный пример - распознавание человеческих лиц. Посмотрите на лица разных людей. Наверное, всем известно, что существуют технологии для моделирования на основе определенных точек на лице, скажем, уголков глаз. Не хочу вдаваться в интеллектуальные секреты, но есть некоторые области, между которыми можно построить углы, и эти углы обычно не особо меняются со временем. Но вот вам показывают фотоснимки людей с широко открытыми глазами или гримасами в области рта. Такие люди пытаются сбить эти алгоритмы с толку, искажая черты своего лица. Вот почему вам нельзя улыбаться на фотографии в паспорте. Но машинное обучение уже ушло далеко вперед. У нас есть такие средства, как Eigenface, и другие технологии для моделирования поворота и искажения лиц, позволяющие определить, что это одно и то же лицо.

Со временем эти инструменты становятся все лучше. И порой, когда люди пытаются запутать процесс обучения, мы также учимся на их поведении. Так что этот процесс саморазвивающийся, и в этом плане идет постоянный прогресс. Рано или поздно цель будет достигнута, и да, машина будет находить только горы. Она не пропустит ни одной горы и никогда не будет сбита с толку стаканчиком мороженого.

Чем это отличается от классического программирования?

Изначально этот процесс происходил в игровой форме или заключался в идентификации изображений. Тогдашние исследователи просили участников играть в игры или помогать в обучении простыми утверждениями вроде «Это гора», «Это не гора», «Это гора Фудзи», «Это гора Килиманджаро». Так что у них накопился набор слов. У них была группа людей, использовавших слова для описания изображений (например, в проекте

Нам приходится ежедневно сталкиваться с задачами по учету и обработке обращений клиентов. За долгие годы работы у нас накопилось большое количество задокументированных решений, и мы задумались, как можно использовать этот объем знаний. Мы пытались составлять базу знаний, использовать встроенный в Service Desk поиск, но все эти методики требовали больших усилий и ресурсов. В итоге наши сотрудники чаще пользовались интернет-поисковиками, чем собственными решениями, что мы, естественно, не могли так оставить. И нам на выручку пришли технологии, которых 5-10 лет назад ещё не было, однако сейчас они имеют достаточное распространение. Речь пойдет о том, как мы применяем машинное обучение для устранения проблем клиентов. Мы использовали алгоритмы machine learning в задаче поиска похожих, уже возникавших ранее инцидентов, для применения их решений к новым инцидентам.

Задача оператора Help desk

Help desk (Service Desk) - система учета и обработки обращений пользователей, в которых содержатся описания неисправностей технического характера. Работа оператора Help desk заключается в обработке таких обращений: он дает инструкции по устранению неполадок или же устраняет их лично, через удаленный доступ. Однако рецепт устранения проблемы сперва нужно составить. При этом, оператор может:

  • Воспользоваться базой знаний.
  • Использовать встроенный в Service desk поиск.
  • Составить решение самостоятельно, исходя из своего опыта.
  • Использовать сетевой поисковик (Google, Yandex и др.).

Почему понадобилось машинное обучение

Какие наиболее развитые программные продукты мы можем применить:

  • Service Desk на платформе 1С: Предприятие. Существует только ручной режим поиска: по ключевым словам, или с использованием полнотекстового поиска. Есть словари синонимов, возможность замены букв в словах и даже использование логических операторов. Однако, эти механизмы практически бесполезны при таком объеме данных, как у нас - результатов, удовлетворяющих запроса много, а эффективной сортировки по релевантности нет. Есть база знаний, на поддержку которой нужно тратить дополнительные усилия, а поиск в ней осложнен интерфейсным неудобством и необходимостью понимать её каталогизацию.
  • JIRA от Atlassian. Наиболее известная западная Service desk - система с передовым, по сравнению с конкурентами, поиском. Существуют пользовательские расширения, интегрирующие функцию ранжирования результатов поиска BM25, которую использовали Google в своем поисковике до 2007 года. Подход BM25 основан на оценке “важности” слов в обращениях исходя из частоты их встречаемости. Чем реже совпадающее слово, тем сильнее оно влияет на сортировку результатов. Это позволяет несколько улучшить качество поиска при большом объеме обращений, однако система не адаптирована для обработки русского языка и, в целом, результат неудовлетворителен.
  • Интернет поисковики. Сам поиск решений занимает в среднем от 5 до 15 минут, при этом качество ответов не гарантировано, как и их наличие. Бывает, что длинное обсуждение на форуме содержит несколько длинных инструкций, и ни одна из них не подходит, а на проверку уходит целый день (в итоге может уйти много времени при отсутствии гарантии результата).
Основной трудностью поиска по содержанию обращений является то, что симптомы одинаковых по сути неисправностей, описываются разными словами. Кроме того, описания часто содержат сленг, грамматические ошибки и формы почтовой отправки, т.к. большинство заявок поступает по e-mail. Современные Help Desk системы пасуют перед такими сложностями.

Какое решение придумали мы

Если выразить просто, то задача поиска звучит так: для нового входящего обращения требуется найти наиболее похожие по смыслу и содержанию обращения из архива, и выдать закрепленные за ними решения. Встает вопрос - как научить систему понимать общий смысл обращения? Ответ - компьютерный семантический анализ. Инструменты машинного обучения позволяют построить семантическую модель архива обращений, извлекая из текстовых описаний семантику отдельных слов и целых обращений. Это позволяет численно оценивать меру близости между заявками и отбирать наиболее близкие совпадения.

Семантика позволяет учитывать значение слова в зависимости от его контекста. Это дает возможность понимать синонимы, снимать многозначность слов.

Однако, перед тем как применять машинное обучение, тексты следует предварительно обработать. Для этого мы построили цепочку алгоритмов, позволяющую получить лексическую основу содержания каждого обращения.

Обработка состоит из очистки содержания обращений от лишних слов и символов и разбиения содержания на отдельные лексемы - токены. Так как обращения приходят в виде e-mail, то отдельной задачей является очистка почтовых форм, которые отличаются от письма к письму. Для этого мы разработали собственный алгоритм фильтрации. После его применения, у нас остается текстовое содержания письма без вводных слов, приветствий и подписей. Затем, из текста удаляются знаки пунктуации, а даты и цифры заменяются специальными тегами. Этот обобщающий прием повышает качество извлечения семантических связей между токенами. После этого, слова проходят лемматизацию – процесс приведения слов к нормальной форме, что также повышает качество за счет обобщения. Затем отсеиваются части речи с низкой смысловой нагрузкой: предлоги, междометия, частицы и т. п. После этого, все буквенные токены фильтруются по словарям (национальный корпус русского языка). Для точечной фильтрации, используются словари IT-терминов и сленга.

Примеры результатов обработки:

В качестве инструмента машинного обучения, мы используем Paragraph Vector (word2vec) – технология семантического анализа естественных языков, которая основана на распределенном векторном представлении слов. Разработана Mikolov et al совместно с Google в 2014 году. Принцип работы основывается на предположении, что слова, встречающиеся в схожих контекстах, являются близкими по смыслу. К примеру, слова «интернет» и «подключение» часто встречаются в схожих контекстах, например «Пропал интернет на сервере 1С» или «Пропало подключение на сервере 1С». Paragraph Vector анализирует текстовые данные предложений и делает вывод, что слова «интернет» и «подключение» являются семантически близкими. Адекватность подобных выводов тем выше, чем больше текстовых данных будет использовать алгоритм.

Если углубиться в детали:

На основе обработанных содержаний, для каждого обращения составляется “мешки слов”. Мешок слов – это таблица, отражающая частоту встречаемости каждого слова в каждом обращении. В строках находятся номера документов, а в столбцах- номера слов. На пересечении стоят цифры, показывающие сколько раз встретилось в документе слово.

Приведем пример:

  • пропадать интернет сервер 1С
  • пропадать подключение сервер 1С
  • падать сервер 1С

А так выглядит мешок слов:

С помощью скользящего окна определяется контекст каждого слова в обращении (его ближайшие соседи слева и справа) и составляется обучающая выборка. На ее основе, искусственная нейронная сеть учится предсказывать слова в обращении, в зависимости от их контекста. Извлеченные из обращений семантические признаки формируют многомерные вектора. В ходе обучения, вектора разворачиваются в пространстве таким образом, что их положение отражает семантические отношения (близкие по смыслу находятся рядом). Когда сеть удовлетворительно решает задачу предсказания, можно сказать, что она удачно извлекла семантический смысл заявок. Векторные представления позволяют вычислять угол и расстояние между ними, что помогает численно оценивать меру их близости.

Как мы отлаживали продукт

Поскольку, существует большое множество вариантов обучения искусственных нейронных сетей, встала задача поиска оптимальных значений параметров обучения. То есть таких, при которых модель будет наиболее точно определять одинаковые технические проблемы, описанные разными словами. Из-за того, что точность работы алгоритма сложно оценить автоматически, мы создали отладочный интерфейс для ручной оценки качества и инструментарий для анализа:

Для анализа качества обучения мы также использовали визуализации семантических связей с помощью T-SNE - алгоритма уменьшения размерности (основан на машинном обучении). Он позволяет отобразить многомерные вектора на плоскости таким образом, что дистанция между точками-обращениями отражает их семантическую близость. В примерах будут представлены 2000 обращений.

Ниже представлен пример хорошего обучения модели. Можно заметить, что часть обращений группируется в кластеры, которые отражают их общую тематику:

Качество следующей модели куда ниже, чем предыдущей. Модель недообучена. Равномерное распределение указывает на то, что детали семантических отношений были усвоены лишь в общих чертах, что было выявлено уже при ручной оценке качества:

Напоследок, демонстрация графика переобучения модели. Хотя и есть разделение на темы, модель имеет очень низкое качество.

Эффект от внедрения машинного обучения

Благодаря использованию технологий машинного обучения и собственных алгоритмов очистки текста, мы получили:

  • Дополнение для стандартной отраслевой информационной системы, которое позволило существенно экономить время на поиск решений ежедневных задач service desk.
  • Снизилась зависимость от человеческого фактора. Максимально быстро заявку сможет решить не только тот, кто её уже решал ранее, но и тот, кто с проблемой вообще не знаком.
  • Клиент получает более качественный сервис, если ранее решение незнакомой инженеру задачи занимало от 15 минут, то теперь до 15 минут, если ранее эту задачу уже кто-то решал.
  • Понимание, что можно повысить качество обслуживания расширяя и улучшая базу описаний и решений проблем. Наша модель постоянно дообучается по мере поступления новых данных, а значит ее качество и количество готовых решений растет.
  • Наши сотрудники могут влиять на свойства модели, постоянно участвуя в оценке качество поиска и решений, что позволяет оптимизировать её в непрерывном режиме.
  • Инструмент, который можно усложнять и развивать для извлечения большей пользы из имеющейся информации. Далее мы планируем привлекать к партнерству других аутсорсеров и модифицировать решение для решения похожих задач у наших клиентов.

Примеры поиска похожих обращений (орфография и пунктуация авторов сохранена):

Входящее обращение Наиболее похожее обращение из архива % похожести
“Re:Диагностика ПК ПК 12471 уходит в ребут после подключения флеш накопителя. Проверить логи. Диагностировать, понять в чем проблема.” “перезагружается пк, при подключении флешки пк ребутается. пк 37214 Проверить в чем проблема. Пк на гарантии.” 61.5
“Тертнальный сервер после отключения питания не загружается. BSOD” “После перезагрузки сервера, сервер не загружается пищит” 68.6
“Не работает камера” “ Камеры не работают” 78.3
“RE:The Bat Не отправляются письма, пишет переполнена папка. Re: не принимается почта Переполнение папки в THE Bat! папка более 2 ГБ 68.14
“Ошибка при запуске 1С - Невозможно получить сертификат сервера лицензирования. Скрин прикладываю. (компьютер 21363)” Не запускается 1С CRM, на пк 2131 и 2386 не запускается 1С, ошибка след.: Невозможно получить сертификат сервера лицензирования. Не удалось найти сервер лицензирования в режиме автоматического поиска.” 64.7

Изначально решение архитектурно планировалось следующим образом:

Программное решение полностью написано на языке Python 3. Библиотека, реализующая методы машинного обучения частично написана на c/c++, что позволяет использовать оптимизированные версии методов, дающие ускорение порядка 70 раз, по сравнению с чистыми Python-имплементациями. На данный момент, архитектура решения выглядит следующим образом:

Были дополнительно разработаны и интегрированы система анализа качества и оптимизации параметров обучения моделей. Также был разработан интерфейс обратной связи с оператором, позволяющий ему оценивать качество подбора каждого решения.

Данное решение можно применять для большого количества задач, связанных текстом, будь то:

  • Семантический поиск документов (по содержанию документа или ключевым словам).
  • Анализ тональности комментариев (выявление в текстах эмоционально окрашенной лексики и эмоциональной оценки мнений по отношению к объектам, речь о которых идёт в тексте).
  • Извлечение краткого содержания текстов.
  • Построение рекомендаций (Collaborative Filtering).

Решение легко интегрируется с системами документооборота, так как для его работы требуется только база данных с текстами.

Будем рады внедрить технологии machine learning коллегам по ИТ сфере и клиентам из других отраслей, свяжитесь с нами , если заинтересовались продуктом.

Направления развития продукта

Решение находится в стадии альфа-тестирования и активно развивается в следующих направлениях:

  • Создание облачного сервиса
  • Обогащение модели на основе решений технической поддержки в открытом доступе и в сотрудничестве с другими аутсорсинговыми компаниями
  • Создание распределенной архитектуры решения (данные остаются у заказчика, а создание модели и обработка запросов происходит на нашем сервере)
  • Расширение модели под другие предметные области (медицина, юриспруденция, обслуживание техники и проч.)

Термин «машинное обучение», скорее всего, встречался вам не раз. Хотя его нередко используют как синоним искусственного интеллекта, на самом деле машинное обучение – это один из его элементов. При этом оба понятия родились в Массачусетском технологическом институте в конце 1950-х годов.

Сегодня вы сталкиваетесь с машинным обучением каждый день, хотя, возможно, и не знаете этого. Голосовые помощники Siri и Google, распознавание лиц в Facebook и Windows 10, рекомендации в Amazon, технологии, не позволяющие автомобилям-роботам натыкаться на препятствия, созданы благодаря прогрессу машинного обучения.

До человеческого мозга системам машинного обучения еще очень далеко, но они уже имеют в активе впечатляющие достижения – например, победу над людьми в шахматах, настольной игре го и покере.

В последние несколько лет развитие машинного обучения получило резкий толчок благодаря ряду технологических прорывов, росту доступной вычислительной мощности и изобилию учебных данных.

Самообучающееся программное обеспечение

Так что же такое машинное обучение? Начнем с того, чем оно не является. Это не обычные компьютерные программы, написанные вручную.

В отличие от традиционного ПО, которое прекрасно справляется с выполнением инструкций, но не способно к импровизации, системы машинного обучения по сути программируют сами себя, самостоятельно разрабатывая инструкции путем обобщения известных сведений.

Классический пример – распознавание образов. Покажите системе машинного обучения достаточное количество снимков собак с пометкой «собака», а также кошек, деревьев и других объектов, помеченных «не собака», и она со временем начнет хорошо отличать собак. И для этого ей не нужно будет объяснять, как именно те выглядят.

Спам-фильтр в вашей почтовой программе – хороший пример машинного обучения в действии. После обработки сотен миллионов образцов нежелательных и нужных сообщений система обучается выделять типичные признаки спамерских писем. Она справляется с этим не идеально, но довольно эффективно.

Обучение с учителем и без

Упомянутый вид машинного обучения называется обучением с учителем. Это значит, что кто-то познакомил алгоритм с огромным объемом учебных данных, просматривая результаты и корректируя настройки до тех пор, пока не была достигнута нужная точность классификации данных, которые система еще не «видела». Это то же самое, что нажимать кнопку «не спам» в почтовой программе, когда фильтр случайно перехватывает нужное вам сообщение. Чем чаще вы это делаете, тем точнее становится фильтр.

Типичные задачи обучения с учителем – классификация и прогнозирование (или регрессионный анализ). Распознавание спама и образов – задачи классификации, а прогнозирование котировок акций – классический пример регрессии.

При обучении без учителя система просматривает гигантские объемы данных, запоминая, как выглядят «нормальные» данные, чтобы получить возможность распознавать аномалии и скрытые закономерности. Обучение без учителя полезно, когда вы точно не знаете, что именно ищете, – в этом случае систему можно заставить вам помочь.

Системы обучения без учителя могут обнаруживать закономерности в огромных объемах данных гораздо быстрее, чем люди. Именно поэтому банки используют их для выявления мошеннических операций, маркетологи – для идентификации клиентов со схожими атрибутами, а ПО безопасности – для распознавания вредоносной активности в сети.

Примеры задач обучения без учителя – кластеризация и поиск правил ассоциации. Первая применяется, в частности, для сегментации клиентов, а на поиске правил ассоциации основаны механизмы выдачи рекомендаций.

Словарь терминов

Машинное обучение – лишь верхушка айсберга искусственного интеллекта. Среди других терминов, тесно связанных с ним, – нейронные сети, глубинное обучение и когнитивные вычисления.

Нейронная сеть. Это компьютерная архитектура, имитирующая структуру нейронов головного мозга; каждый искусственный нейрон соединяется с другими. Нейронные сети выстроены слоями; нейроны на одном слое передают данные множеству нейронов на следующем и т. д., пока не будет достигнут выходной слой. Именно на последнем слое сеть выдает свои догадки – скажем, на что похож тот объект в форме собаки, – сопровождая ответ рейтингом уверенности.

Существуют разные типы нейронных сетей для решения разных видов задач. Сети с большим числом слоев называются глубинными. Нейросети – один из самых важных инструментов машинного обучения, но не единственный.

Глубинное обучение. Это, по сути, машинное обучение «на стероидах» – использование многослойных (глубинных или глубоких) сетей для принятия решений на основе неточной или неполной информации. Система глубокого обучения DeepStack в декабре прошлого года обыграла 11 профессиональных игроков в покер путем перерасчета стратегии после каждого раунда ставок.

Когнитивные вычисления. Это термин, придуманный в IBM создателями суперкомпьютера Watson. Разницу между когнитивными вычислениями и искусственным интеллектом в IBM видят в том, что первые не заменяют человеческий разум, а дополняют его: например, помогают врачам ставить более точные диагнозы, финансовым консультантам – выдавать более обоснованные рекомендации, юристам – быстрее находить подходящие прецеденты и т. п.

Ограничения машинного обучения

Каждая система машинного обучения создает собственную схему связей, представляя собой нечто вроде черного ящика. Вы не сможете путем инженерного анализа выяснить, как именно выполняется классификация, но это и не имеет значения, главное, чтобы работало.

Однако система машинного обучения хороша лишь настолько, насколько точны учебные данные: если подать ей на вход «мусор», то и результат будет соответствующим. При неправильном обучении или слишком малом размере обучающей выборки алгоритм может выдавать неверные результаты.

HP попала в неприятную ситуацию в 2009 году, когда система идентификации лиц для веб-камеры на ноутбуке HP MediaSmart оказалась неспособной распознавать лица афроамериканцев. А в июне 2015 года некачественный алгоритм сервиса Google Photos назвал двух черных американцев «гориллами».

Еще один пример – печально знаменитый Twitter-бот Microsoft Tay, с которым в 2016 году поставили эксперимент: тогда попытались выяснить, сможет ли искусственный интеллект «притвориться» человеком, обучившись на реальных сообщениях от людей. Меньше чем за день тролли в Twitter превратили Tay в отъявленного ксенофоба – вот вам типичный пример испорченных учебных данных.

***

Итак, несмотря на весь шум вокруг искусственного интеллекта, не будет преувеличением сказать, что машинное обучение и связанные технологии действительно меняют мир вокруг нас, причем настолько быстро, что, того и гляди, машины обретут полное самосознание.

− Dan Tynan. What is machine learning? Software derived from data. InfoWorld. August 9, 2017

«Газпром нефть» будет пользоваться искусственным интеллектом «Яндекса»

Используя технологии Больших Данных, машинного обучения и искусственного интеллекта, «Газпром нефть» и «Яндекс» планируют вести бурение скважин, осуществлять моделирование технологических процессов нефтепереработки, оптимизировать другие производственные процессы.

Заключенное компаниями соглашение предполагает проведение специалистами Yandex Data Factory независимой экспертизы существующих технологических решений, совместную разработку и реализацию научно-исследовательских и технологических проектов, обмен научно-технической информацией, знаниями и обучение сотрудников.

Нефтегазовая отрасль – одна из наиболее перспективных с точки зрения использования новых технологий, поскольку в ней накоплены большие объемы данных, а простые решения по оптимизации производства и бизнеса давно применены. Тем самым созданы хорошие возможности для получения ощутимого эффекта от внедрения решений на основе машинного обучения и искусственного интеллекта.

Хоккейная аналитика в Azure

Российская компания Iceberg Sports Analytics представила решение iceberg.hockey, реализованное на платформе Microsoft Azure. Оно позволяет сделать управление хоккейными клубами более эффективным, повысить шансы на победу и оптимизировать использование бюджета команды.

В iceberg.hockey используются собственные алгоритмы, созданные специально для хоккея на основе технологий продвинутой аналитики, машинного обучения и компьютерного зрения. Система предназначена для менеджеров и тренеров хоккейных клубов. По каждой игре решение создает порядка миллиона строк данных, с помощью трех видеокамер фиксируя все, что происходит на поле каждую десятую долю секунды: это порядка 500 параметров по каждому игроку. Разработчикам удалось добиться высокой точности анализа данных: погрешность составляет не более 4%. Анализ помогает получать информацию об оптимальном сочетании игроков, технике игры конкретных спортсменов, звеньев и команды в целом.

Среди клиентов компании уже есть New York Islanders и ХК «Сочи», а также австрийская хоккейная академия RedBull.

«Хлынов» оптимизировал обслуживание банкоматов

Банк «Хлынов» изменил обслуживание банкоматов, задействуя сервисы машинного обучения из облака Microsoft Azure. В результате банк получил возможность использовать ранее «замороженные» 250 млн руб.

Поскольку клиентская сеть банка постоянно развивается, требуются новые подходы к хранению денежных средств клиентов и работе с ними. На старте проекта среднемесячный остаток на картах «Хлынов» составлял порядка 800 млн руб. Треть этих денег резервировалась в банкоматах для снятия держателями карт.

Применение сервисов машинного обучения из облака Microsoft Azure позволило банку снизить объем резервируемых денежных средств в банкоматах до 16-20% от среднемесячного остатка на картах: он возрос до 1,2 млрд руб., а резервируемая сумма составила 200-230 млн руб. Освободившиеся средства банк смог направить на другие операционные задачи, в частности на кредитование своих клиентов.

Созданный совместно с интегратором «Рубикон» алгоритм, задействующий методы машинного обучения, позволил банку сократить число ежемесячных инкассаторских выездов более чем в 1,5 раза. Каждый из таких выездов обходится в 3 тыс. руб., а каждая перевозимая тысяча рублей облагается комиссией 0,026%.

В ближайшем будущем банк «Хлынов» планирует внедрить дополнительные инструменты прогнозной аналитики из облака Microsoft Azure для продуктивного использования информации, накопленной за более чем 25 лет работы с клиентами.

MoneyСare использует машинное обучение для прогнозирования одобрения кредитов

Независимый кредитный брокер MoneyCare создал модель прогнозирования на основе облачного сервиса Microsoft Azure Machine Learning. Решение позволяет оценить вероятность положительного ответа банка на запрос кредита.

Для лучшей конверсии кредитных заявок компания решила сократить количество анкетных данных до минимально необходимых, а также создать модель, прогнозирующую вероятность положительного ответа банка. Определение минимального набора данных и построение прототипа компания MoneyCare доверила экспертам Columbus.

Выбирая платформу машинного обучения, специалисты MoneyCare остановились на облачном сервисе Azure Machine Learning, который позволяет оперативно создавать и развертывать полнофункциональные прогнозные модели в качестве решений аналитики.

На первом этапе проекта был создан прототип классификатора в Azure Machine Learning, задача которого – отбор более 60% заявок на кредит с вероятностью одобрения свыше 80%. При этом были использованы такие методы, как дискриминантный анализ, регрессионный анализ, кластеризация, классификация на основе разделимости, а также алгоритмы сокращения размерности.

Вторым этапом проекта стали обучение сотрудников MoneyCare принципам работы и совместный воркшоп по совершенствованию прототипа. Проводилось консультирование по настройке моделей, типовым задачам машинного обучения, а также определялись следующие шаги по улучшению прототипа.

Правительство Мурманской области применит машинное обучение в документообороте

Кафедра технологии программирования СПбГУ совместно с компанией «Диджитал Дизайн» исследовала возможность применения в системах электронного документооборота алгоритмов машинного обучения. Объектом исследования стала СЭД Правительства Мурманской области. В качестве базы данных были использованы более 250 тыс. обезличенных документов служебной переписки.

Проверялась возможность использования в СЭД интеллектуальных алгоритмов, повторяющих принципы нейронной сети. Основные задачи такой сети – определение категории документа, автоматическое заполнение его основных атрибутов, определение на основании анализа текста прикрепленного файла наиболее вероятных исполнителей и создание для них проектов текстов поручений.

Было определено, что, используя интеллектуальные алгоритмы, можно автоматизировать сортировку документов по содержимому прикрепленных файлов и составить семантическое ядро для каждой категории, искать схожие или идентичные документы, определять зависимости одних атрибутов документа от других и даже автоматизировать построение вероятностной модели предсказания значений атрибутов. В ходе исследования удалось достигнуть 95-процентной точности при определении категории документа по содержанию текста. На следующем этапе будет проведено тестирование на узкой группе ключевых пользователей СЭД Правительства Мурманской области, обрабатывающих большие объемы документов.

Машинное обучение - это способ программирования, при котором компьютер сам формирует алгоритм действий, основываясь на модели и данных, которые загружает человек. Обучение основано на поиске закономерностей: машине показывают много примеров и учат находить общие черты. Люди, к слову, учатся подобным образом. Мы не рассказываем ребёнку, что такое зебра, мы показываем ему фотографию и говорим, что это. Если подобной программе показать миллион фотографий голубей, она научится отличать голубя от любой другой птицы.

Машинное обучение сегодня служит на благо человечеству и помогает анализировать данные, строить прогнозы, оптимизировать бизнес-процессы и рисовать котиков . Но это не предел, и чем больше данных накапливает человечество, тем производительнее будут алгоритмы и шире область применения.

Для входа в офис Квентин использует мобильное приложение. Сначала программа сканирует лицо сотрудника, после чего он прикладывает палец к сенсору, а приложение проверяет отпечаток на соответствие и пускает в помещение.

Распознают текст

На работе Квентину нужно сканировать кредитные карты и работать с бумажными документами. В этом ему помогает приложение с функцией распознавания текста.

Квентин направляет камеру смартфона на документ, приложение считывает и распознаёт информацию и переносит ее в электронный вид. Очень удобно, но иногда бывают сбои, потому что научить алгоритм безошибочно распознавать текст сложно. Весь текст разный по размеру шрифта, положению на странице, расстоянию между символами и другим параметрам. Это надо учитывать, когда создаёшь модель машинного обучения. Мы в этом убедились, когда создавали приложение для распознавания кассовых чеков .

Распознают звуки

Квентин не хочет заводить кота и предпочитает беседовать с Siri. Программа не всегда понимает, что имеет в виду молодой человек, но Квентин не унывает. Качество распознавания улучшается в процессе машинного обучения. Наш герой с нетерпением ждет, когда Siri научится преобразовывать речь в текст, тогда он сможет устно отправлять письма родственникам и коллегам.

Анализируют данные с сенсоров

Квентин любит технологии и пытается вести здоровый образ жизни. Он пользуется мобильными приложениями, которые считают шаги во время прогулки в парке и измеряют пульс во время пробежки. С помощью сенсоров и машинного обучения приложения будут точнее угадывать состояние человека и не потребуется переключать режимы, когда Квентин садится на велосипед или переключается с кардио на силовые упражнения.

У Квентина мигрень. Чтобы предугадать, когда будет приступ сильной головной боли, он скачал специальное приложение , которое будет полезно и при других хронических заболеваниях. Приложение анализирует состояние человека с помощью сенсоров на смартфоне, обрабатывает информацию и предугадывает приступы. Если возникает риск - программа отправляет сообщение пользователю и его близким.

Помогают с навигацией

Утром по дороге на работу Квентин часто попадает в пробку и опаздывает, не смотря на то, что выбирает в навигаторе самый выгодный маршрут. Этого можно избежать, если заставить навигатор использовать камеру и анализировать дорожную ситуацию в реальном времени. Так можно предугадать пробки и избежать опасных моментов на дороге.

Строят точные прогнозы

Квентин любит заказывать пиццу через мобильное приложение, но интерфейс в нем не очень удобен, и это раздражает. Разработчик использует сервисы мобильной аналитики Amazon и Google , чтобы понять, что не нравится Квентину в мобильном приложении. Сервисы анализируют поведение пользователя и подсказывают, что исправить, чтобы заказывать пиццу стало просто и удобно.

Кому будет полезно

  • Интернет-компаниям. Почтовые сервисы используют алгоритмы машинного обучения, чтобы фильтровать спам. Социальные сети учатся показывать только интересные новости и пытаются создать «идеальную» ленту новостей.
  • Службам безопасности. Пропускные системы основаны на алгоритмах распознавания фото или биометрических данных. Дорожные службы используют автоматическую обработку данных, чтобы отслеживать нарушителей.
  • Компании в сфере кибербезопасности разрабатывают системы для защиты от взлома мобильных устройств, используя машинное обучение. Яркий пример - Snapdragon от Qualcomm .
  • Ритейлерам. Мобильные приложения торговых сетей могут изучать данные о покупателях, чтобы создавать персональные списки покупок, повышая лояльность клиентов. Еще умное приложение может советовать товары, которые интересны конкретному человеку.
  • Финансовым организациям. Банковские приложения изучают поведение пользователей и предлагают продукты и услуги, основываясь на особенностях клиента.
  • Умным домам. Приложение на основе машинного обучения будет анализировать действия человека и предлагать свои решения. Например, если на улице холодно, закипит чайник, а если в домофон звонят друзья, приложение заказывает пиццу.
  • Медицинским учреждениям. Клиники смогут наблюдать за пациентами, которые находятся вне больницы. Отслеживая показатели организма и физическую активность, алгоритм предложит записаться к врачу или сесть на диету. Если показать алгоритму миллион томографических снимков с опухолями, система с большой точностью сможет предсказывать рак на ранней стадии.

И что дальше?

Пользователи получат новые возможности для решения своих задач, а опыт использования мобильных приложений станет более личным и приятным. Автомобили без водителей и дополненная реальность станут обычным явлением, а искусственный интеллект изменит нашу жизнь.

Технологии машинного обучения привлекают покупателей, анализируют большие объемы данных и делают прогнозы. На базе Machine Learning можно построить мобильное приложение, которое облегчит жизнь и вам, и вашим клиентам. Кроме того, станет конкурентным преимуществом вашего бизнеса.

Похожие публикации