IT Expert світ технологій Наука і техніка Володимир Комен
| 11.07.2017
У жовтні 2016- го Сбербанк, чия IT-команда, мабуть, найсильніша на російському ринку, оголосив конкурс по Big Data, в якому взяв участь і я, зайнявши почесне (або ганебне, називайте як хочете) 98-е місце. Такого роду конкурси, розпочавшись на Заході, приживаються і у нас: за рік до сберовского подібне змагання проводив вже, наприклад, «Білайн». Мета - підняти хвилю інтересу до технологій машинного навчання, стимулюючи прилив студентів на відповідні спеціальності. Ну і знайти суперзірок собі в штат - в стилі радянської передачі «Алло, ми шукаємо таланти!».
Потрібно сказати, що в області машинного навчання ми досить гідно виглядаємо на світовому тлі: в топі інтернет-майданчики № 1 для змагань Kaggle повно російських прізвищ, а гуру і безумовний авторитет Костянтин Воронцов з МФТІ (він теж виступав з доповіддю на тусовці Ощад за підсумками конкурсу) - професіонал світового рівня.
Область стрімко розвивається. Преса, звичайно ж, в основному звертає увагу на рекорди на зразок перемоги суперкомп'ютера від Google в матчі за го над чемпіоном світу Лі Седолем або машинного розпізнавання ієрогліфів, але робота йде і в безлічі набагато більш дрібних питань, наближених до повсякденного життя. Це і діагностика в медицині, і оптимізація процесів в різноманітних бізнесах, наприклад банківський скоринг (визначення ймовірності повернення кредиту позичальником за даними заповнення анкет з урахуванням навіть того, що дані можуть бути невірними), і вдосконалення муніципальної інфраструктури, сфери надання послуг населенню, і, звичайно ж, розпізнавання образів і машинне зір. Продукт машинного навчання, самоврядні автомобілі, хоча ними поки і не повні вулиці міст, вже не викликає такого ажіотажу, як лише кілька років тому.
Так чим же займається машинне навчання?
Будь-яка наука в своєму становленні проходить три етапи. Перший - просте збирання фактів, наприклад опис властивостей всіляких речовин або видів рослин і тварин. Потім - систематизація цих даних, наприклад періодична таблиця елементів Менделєєва, класифікація живої природи Карла Ліннея. І нарешті, спроби проникнути в суть речей, глибинних законів, які і призводять до настільки широкої різноманітності всього і вся в природі. У більшості випадків ця остання стадія становить предмет вже інших наук - в нашому випадку квантової фізики і теорії еволюції і мікробіології, а по суті - математики (їй далі відступати вже нікуди, звання цариці наук зобов'язує).
Однак далеко не у всіх областях ми можемо дійти до третього, тріумфального етапу. Це може виявитися просто не по зубах сучасному стану науки! І тоді на допомогу приходить машинне навчання. По суті, це є просто спосіб (в найширшому сенсі слова) встановити закономірності, математичні зв'язки між абсолютно різними явищами і фактами з метою зрозуміти і кількісно, тобто формулами, описати їх природу. Скажімо, між злочинністю і рівнем освіченості населення, доступністю всякого позашкільної роду занять і кількістю, розташуванням і графіком роботи точок реалізації спиртного і тютюну. Або між сімейним станом, кількістю працевлаштування громадянина і числом його далеких поїздок і перельотів на рік для обчислення ймовірності того, що він вчасно погасить борги.
Уявімо, що люди з блакитними очима і світлим волоссям краще за інших повертають банківські кредити (приклад, звичайно, штучний). Наука про дані виловить цю закономірність і поставить на користь банку, рекомендуючи охочіше працювати з цією категорією населення. Але пояснити цей феномен, тобто побудувати модель блакитноокого блондина ... Бог в допомогу.
Керівник проекту Google Translate зазначив одного разу, і це жарт, в якій дуже велика частка істини: «Всякий раз, коли я звільняю одного лінгвіста, якість перекладу покращується». Тобто, незважаючи на наявність великої кількості математичних лінгвістичних моделей (робіт Н.Хомского, скажімо, вже більше 50 років!), Машинні методи б'ють теоретичний підхід всуху.
Відома максима «Знання деяких принципів легко компенсує незнання деяких фактів» що парадоксально, перетворюється на свою повну протилежність. Комп'ютера принципи поки недоступні, але він з лишком перекриває це достатком фактів, які йому згодовують для пошуку закономірностей!
Приклад з книги Педро Домінгос "The Master Algorithm". Три гідних чоловіка роду людського збагатили наші знання про світ:
• Тихо Браге, данський астроном. Склав найточніші для свого часу каталоги руху планет.
• Йоганн Кеплер. На основі даних Тихо Браге вивів три закони (закони Кеплера), яким рух планет підпорядковується.
• Ісаак Ньютон. Сформулював закон всесвітнього тяжіння, з якого закони Кеплера слідують прямим аналітичним шляхом, і побудова небесної механіки відбулося і набуло закінченого вигляду.
Що вийшло б, підключи ми до цього процесу машинне навчання? Комп'ютер скористався б вихідними даними Тихо Браге і замінив собою Йоганна Кеплера, самостійно вивівши три його закону як найбільш точно аппроксимирующие інформацію про рух планет.
До генія Ньютона комп'ютер (поки, в усякому разі) не дотягнувся б. Але робити розрахунки і передбачення можна і на цій основі, не розуміючи глибинної природи речей.
Далеке заграва проблеми
З бурхливим розвитком методів машинного навчання і початком їх застосування на практиці виникло прокляте питання: наскільки можна довіряти одержуваних комп'ютерами результатами? На сьогоднішній момент вирішення цієї проблеми виглядає так.
Комп'ютерний алгоритм повинен викласти «хід своїх міркувань», якщо можна так висловитися, мовою, зрозумілою хоча б фахівця в даній галузі. Важко сказати, наскільки така вимога буде гирею на нозі комп'ютера, хоча деякі моменти в роботі таких алгоритмів ми вже розуміємо з труднощами або не розуміємо зовсім. Гучне повідомлення про програму Google Translate, яка, навчаючись на зразках паралельних текстів на різних мовах, в кінці кінців виробила свій власний внутрішній алгоритм, вже насторожує. Чи люди захочуть розбиратися, як комп'ютер робить це. Але вимога «інтерпретується результату», яке в Європі хочуть ввести законодавчо для тих галузей, від яких залежить життя (експертні медичні системи), є хоча б спроба якось підступитися до майбутніх проблем, коли ми покладемо на комп'ютерні програми важливі аспекти життєдіяльності суспільства. Так, комп'ютер, оснащений програмою діагностики раку, в разі постановки позитивного діагнозу буде зобов'язаний викласти свої аргументи: скажімо, навести приклади хворих з підтвердженим захворюванням і близькими аналізами чи щось в цьому роді, переконливе для досвідченого лікаря-діагноста.
Це - поки лише далеке заграва проблеми. Але я, чесно кажучи, не думаю, що коли ми зіткнемося в повний зріст з неможливістю зрозуміти, яким шляхом комп'ютер прийшов до тих чи інших висновків, то тільки з цієї причини відмовимося від його пророкувань. Просто тому, що вони будуть не по-людськи точні, конкретні і ефективні.
Між іншим, це одна з областей (поряд, наприклад, з робототехнікою і методами наукових досліджень із застосуванням комп'ютерів), де ми впритул підходимо до питань співвідношення людського і машинного інтелекту - проблеми поетично відомих «повстання машин» і переходу прогресу від біологічного на машинний рівень та ін. В машинному навчанні зіткнення з цими непростими питаннями відбувається в багатьох напрямках.
Комп'ютерне навчання породжує проблеми, які вже і зараз можна віднести до моральних. Той самий приклад - точність прогнозів в чутливих областях, таких як діагностика захворювань. Оскільки ситуація «хворий / здоров» абсолютно несиметрична і, на щастя, зміщена в область здорових індивідуумів, то помилки поставити здоровому діагноз, що він хворий, а хворому, що він здоровий, абсолютно нерівнозначні! У разі сумнівів можна просто відправити пацієнта на повторні аналізи, можливо, з використанням інших методик.
Не всі результати цієї науки так вже приємні для людини. Ну якщо по дрібниці, то (анонімний) аналіз переміщень людей по місту на основі даних реєстрації їх мобільних телефонів на вишках стільникових операторів показує, що переважна більшість наших співгромадян ходить одними і тими ж доріжками більшу частину свого життя. Одними маршрутами їздить на роботу і з роботи і навіть в один і той же час одного і того ж вихідного дня одним і тим же шляхом обходить прилавки одного разу і назавжди обраного ними супермаркету при покупці продуктів на тиждень. Одне із завдань (найпростіша) конкурсу Ощадбанку полягала в тому, щоб за профілем витрат грошей з кредитної картки (анонімізувати, зрозуміло!) Визначити стать людини. Тобто для якоїсь кількості людей, на якому алгоритми налаштовувалися і шукали закономірності, підлогу був відомий, а для іншої частини його потрібно було передбачити. Підсумок бентежить. Кращий результат і перше місце - правильне визначення статі більш ніж в 91% випадків! Причому якщо вдуматися, то реальний показник ще вище, оскільки в 9% помилок увійшли варіанти, коли дружина постійно користується кредиткою чоловіка, рухаючись по магазинам з недосяжною чоловіками швидкістю приблизно 35 000 руб. / Год. Тут виникають питання, чи не є можливість вибору і свобода волі людини деяка навіювана йому ілюзія, раз ми (переважна більшість з нас) настільки передбачувані в своїй поведінці? Просто навколишній світ, а точніше, соціум дуже ненав'язливо, але надзвичайно ефективно профілює і навіть предпрограммірует нашу поведінку аж до дрібниць. Але це питання іншого дослідження.
Можна сказати, що наука про дані розширює наші знання про світ і ставить питання, які потім зажадають вже осмислення зовсім інших наук і на зовсім іншому рівні уявлень про світ. А поки можна використовувати здобуті машинним навчанням дані на благо бізнесу, суспільства і взагалі всіх сторін існування в цьому світі. Не забуваючи про підводні камені.
Журнал: Журнал IT-Expert [№ 07-08 / 2017] , Підписка на журнали
Так чим же займається машинне навчання?Що вийшло б, підключи ми до цього процесу машинне навчання?
Тут виникають питання, чи не є можливість вибору і свобода волі людини деяка навіювана йому ілюзія, раз ми (переважна більшість з нас) настільки передбачувані в своїй поведінці?