Тисячі компаній використовують cервіс машинного зору Rekognition від Amazon для пошуку непристойних зображень і відеороликів, що завантажуються користувачами.
Суперечлива технологія Rekognition від Amazon вже використовується для видалення зображень статевих членів з сайтів, присвячених їжі. Принаймні, це один з прикладів її використання. У якийсь момент лондонський сервіс з доставки їжі Deliveroo зіткнувся з проблемами модерації контенту. У разі проблем з їжею клієнти Deliveroo відправляють фотографію їжі разом зі скаргою. І часто вони займаються фотобомбінгом за допомогою своїх геніталій. Або складають з їжі непристойні картинки.
І так виходить, що співробітники Deliveroo не завжди хочуть мати справу з таким контентом. Тому компанія використовує Rekognition для розпізнавання непристойних фотографій, і розмиває або видаляє їх перед тим, як їх побачить людина.
Проблема Deliveroo представляє дещо дивну грань проблеми, що поступово ускладнюється. Так чи інакше, багато інтернет-компанії грунтуються на контенті, створюваному користувачами. В останні роки ми все частіше стикаємося з проникненням в цей контент темної сторони людської натури. Модерація контенту стала пріоритетом, оскільки сайти все частіше стикаються з такими неприємними матеріалами, як фальшиві новини, насильство, діпфейки, цькування, агресивна риторика і іншим токсичним контентом, створюваним користувачами. Якщо ви – Facebook, то для вирішення цієї проблеми ви можете розробити власний ШІ або найняти армію модераторів – або зробити і те й інше. Однак у компаній меншого розміру з невеликою кількістю ресурсів часто немає такої можливості. Ось тут їм і приходить на допомогу сервіс модерації контенту від Amazon.
Цей сервіс є частиною пакета послуг з комп’ютерного зору Rekognition, що надається Amazon Web Services. Його багато лаяли в пресі за те, що компанія погодилася надавати послуги з розпізнавання осіб для міграційної служби США. На сайті Rekognition ви можете знайти й інші приклади застосування сервісу для стеження – наприклад, здатність розпізнавати автомобільні номери, зняті під різними кутами на відео, або відслідковувати шлях людини за записами з камер.
Можливо, в пошуках більш позитивного образу сервісу комп’ютерного зору, Amazon вперше заговорила про використання Rekognition для нагляду за призначеним для користувача контентом з метою відсіву насильства і непотребства. Сервіс дозволяє розпізнавати небезпечний або неприємний контент на зображеннях і відеороликах, що завантажуються на сайт.
І цей бізнес зростає. «Роль створюваного користувачами контенту росте вибуховими темпами рік від року – сьогодні ми вже ділимося в соцмережах з нашими друзями і родичами 2-3 картинками щодня», – говорить мені віце-президент Amazon зі ШІ, Свамі Шівасубраманьян. Шівасубраманьян каже, що Amazon почала пропонувати сервіс з модерування контенту у відповідь на запит клієнтів ще в 2017 році.
Компанії можуть платити за Rekognition замість найму людей для вивчення зображень, що завантажуються. Як і інші сервіси з AWS, він працює по моделі оплати за використання, а його вартість залежить від кількості оброблених нейромережею зображень.
Не дивно, що серед перших користувачів управління контентом виявилися сервіси знайомств – їм необхідно швидко обробляти селфі, що завантажуються в профілі користувачів. Amazon каже, що сайти знайомств Coffee Meets Bagel і Shaadi використовують цей сервіс саме для цієї мети – як і португальський сайт Soul, що допомагає людям створювати сайти знайомств.
ШІ шукає не тільки оголення. Нейромережу навчили розпізнавати всякий сумнівний контент, включаючи зображення зброї або насильства, або в цілому неприємні образи. Ось меню класифікації з сайту Rekognition:
Явна нагота:
- оголене тіло;
- графічне зображення оголеного чоловічого тіла;
- графічне зображення оголеного жіночого тіла;
- дію сексуального характеру;
- демонстрація наготи або дії сексуального характеру;
- іграшки для дорослих.
Підозрілий вміст:
- жіночий купальник або нижню білизну;
- чоловічі плавки або нижню білизну;
- частково оголене тіло;
- відвертий одяг.
Контент, який демонструє насильство:
- графічне зображення насильства або крові;
- фізичне насильство;
- насильство з використанням зброї;
- зброю;
- нанесення собі травм.
Візуальний контент, що викликає занепокоєння:
- виснажені тіла;
- трупи;
- повішення.
Як це працює
Як і все на AWS, Rekognition працює в хмарі. Компанія може повідомити сервісу, якого роду зображення їй потрібно знаходити. Потім вона згодовує отримані від користувачів фото і відео – які в багатьох випадках і так можуть зберігатися на серверах AWS.
Нейромережа обробляє зображення, шукає цей контент і відзначає будь-які потенційно неприємні. Нейромережа видає метадані, що описують вміст зображень, разом з відсотковим показником впевненості в виданих мітках. Виглядає це приблизно так:
Ці дані обробляє вже програма на стороні клієнта, яка і вирішує, на підставі запрограмованих бізнес-правил, що робити з обробленим зображенням. Воно може автоматично видалити його, пропустити, розмити його частину, або відправити модератору на розгляд.
У глибоких нейромережах, що обробляють зображення, є безліч шарів. Кожен з них оцінює дані, що представляють різні аспекти зображень, проводить обчислення і відправляє результат в наступний шар. Спочатку мережа обробляє низькорівневу інформацію типу базових форм або наявності на зображенні людини.
«Потім вона послідовно все сильніше уточнює дані, такі шари стають все більш конкретними, і так далі», – пояснює Шівасубраманьян. Поступово, шар за шаром, нейромережа визначає вміст зображень з усе дедалі більшою визначеністю.
Віце-президент AWS зі ШІ Метт Вуд говорить, що його команда навчає моделі комп’ютерного зору на мільйонах як приватних, так і суспільно доступних зображень з різних наборів. Він каже, що Amazon не використовує для цієї мети зображення, отримані від користувачів.
Кадр за кадром
Деякі з найбільших клієнтів Rekognition не використовують цей сервіс для модерації контенту, що створюється користувачами. Amazon каже, що великі медіакомпанії з величезними бібліотеками цифрових відео хочуть дізнатися вміст кожного кадру з цих роликів. Нейромережа Rekognition може обробити кожну секунду відео, описати його за допомогою метаданих і відзначити потенційно небезпечні зображення.
«Одне із завдань, з яким машинне навчання справляється добре – це залазити в відео або зображення і давати додатковий контекст, – говорить Вуд. – Воно може сказати, що ‘на цьому відео жінка йде по берегу озера з собакою’, або ‘зображений частково одягнений чоловік’». В такому режимі, каже він, нейромережа здатна розпізнати небезпечний, токсичний або непотрібний контент на зображеннях з високою точністю.
І все ж ця область комп’ютерного зору поки не досягла своєї зрілості. Вчені ще виявляють нові способи оптимізації алгоритмів нейромереж, щоб ті могли розпізнавати зображення ще точніше і детальніше. «Ми поки не дійшли до стану прибутків, що зменшуються», – говорить Вуд.
Шівасубраманьян сказав мені, що тільки в минулому місяці команда, яка працює над комп’ютерним зором, зменшила кількість хибно-позитивних спрацьовувань (коли зображення помилково визнається небезпечним) на 68%, а кількість хибно-негативних – на 36%. «У нас є можливість покращувати точність цих API», – говорить він.
Крім точності, клієнти просять більш детальної класифікаціЇ зображень. На сайті AWS написано, що сервіс дає лише основну категорію і одну вкладену категорію небезпечних зображень. Тому, наприклад, система може видати, що на зображенні міститься оголена натура як основну категорію, і сексуальні дії як підкатегорію. Третя категорія може містити класифікацію типу сексуальних дій.
«Поки що машина схильна до фактів і працює буквально – вона розповість вам, що ‘там зображено ось це’, – говорить П’єтро Перона, професор обчислень і нейронних систем з Калтеха, радник AWS. – Але вченим хотілося б вийти за ці рамки, і повідомляти не тільки про те, що там зображено, але і про те, що думають ці люди, що відбувається. У підсумку ця область хоче розвиватися саме в цьому напрямку – не просто видавати список зображеного на картинці».
І такі тонкі відмінності можуть бути важливими для модерації контенту. Чи міститься на зображенні потенційно образливий контент чи ні, може залежати від намірів зображених там людей.
Навіть самі визначення «небезпечних» і «образливих» зображень досить розмиті. Вони можуть змінюватися з часом і залежати від географічного регіону. А контекст – це все, пояснює Перона. Хорошим прикладом служать зображення насильства.
«Насильство може бути неприйнятним в одному контексті, як, наприклад, реальне насильство в Сирії, – каже Перона, – але прийнятним в іншому, як футбольний матч або сцена з фільму Тарантіно”.
Як і у випадку з іншими сервісами AWS, Amazon не просто продає інструмент модерації контенту іншим: вона і сама є своїм клієнтом. Компанія каже, що використовує цей сервіс для сортування створюваного користувачами контенту в зображеннях і відеороликах, яких докладають до оглядів в магазині.
Джерело: habr.com