Аналитическая обработка текста

Аналитическая обработка текста, также известная как интеллектуальный анализ текстовых данных, представляет собой процесс извлечения полезных знаний из огромного объема неструктурированных текстовых данных.

Размеры текстовой информации

Большинство видов бизнеса обладают очень большим количеством текстовых данных, которые имеются в справках, документах компании, электронных письмах, отчетах, пресс-релизах, учетной информации о заказчиках и в переписке с ними, на сайтах, в блогах и сообщениях в социальных сетях. Однако до недавнего времени они не всегда использовались с пользой. Хотя текст структурирован так, что несет определенный смысл, с аналитической точки зрения он является неструктурированным, потому что не соответствует строго реляционной базе данных или строкам и столбцам электронной таблицы.

Единственными структурированными частями текста традиционно были название документа, дата его создания и его автор: все эти элементы текста можно было легко искать и извлекать из массы данных, в том числе и более поздних. Конечно, вы также можете взять любой документ, чтобы найти в нем конкретные слово или фразу, но этот тип запроса требует, чтобы вы уже знали, что именно ищете.

В настоящее время аналитическая обработка текстов уже способна сообщить нам и то, чего мы до этого не знали и, что более важно, не имели никакой возможности узнать. Доступ к огромным массивам текстовых данных и улучшение технических возможностей означают, что теперь текст можно проанализировать и извлечь из него дополнительную информацию высокого качества, выходящую за рамки того, о чем непосредственно сообщается в изучаемом документе. Например, текст может быть оценен с точки зрения наличия в нем коммерчески значимых закономерностей, таких как усиление или ослабление положительной обратной связи от заказчиков, новых идей, которые могли бы привести к доработке продукта или другим интересным и необычным действиям. Подобные идеи могут быть невероятно полезны в бизнесе.

Обработка текстов

Воспользоваться аналитической обработкой текста можно по целому ряду причин. Фактически при применении этого инструмента решается пять основных аналитических задач:

  • категоризация текста;
  • кластеризация текста;
  • получение общего представления;
  • анализ тональности текста;
  • обобщение информации, содержащейся в документе.

В ходе аналитической обработки текста документ в зависимости от его тематики или в соответствии с другими атрибутами, такими как его тип, автор, дата создания и т. п., относится к одному или нескольким классам или категориям. При категоризации текста применяется та или иная структура, которая затем может быть использована для анализа или запроса. Такой подход может быть полезен, если у вас есть огромное количество текстовых данных, которые должны быть классифицированы для облегчения к ним доступа и удобства использования.Спам-фильтр

При классификации текста используются спам-фильтры, с помощью которых оценивается текстовый материал входящих по электронной почте сообщений и принимается решение о том, являются поступающие сообщения допустимыми или это спам. Этот же подход применяется при маршрутизации электронной почты, чтобы на основе обсуждаемой темы в тексте письма перенаправить сообщения, поступающие на общий адрес, конкретному получателю, для которого данное сообщение будет полезным.

Кластеризация текста позволяет автоматически группировать огромные объемы текстовой информации в значимые темы или категории, благодаря чему можно быстро осуществлять поиск нужной информации или ее фильтрацию.

Кластеризацией текста пользуются, в частности, поисковые устройства, чтобы по результатам поиска вы получили нужные результаты. Например, если вы введете в поисковое устройство слово «клетка», выданные вам результаты будут сгруппированы вокруг тем «биология», «батарея» и «тюрьма», в каждой из которых используется слово «клетка», хотя и трактуемое по-разному.

Получение общего представления особенно полезно, если у вас есть множество данных, к которым вам нужно иметь доступ, причем, чтобы получать необходимые результаты, очень оперативный. Этими приемами пользуются, например, в юридических фирмах, где хранятся буквально миллионы документов, относящихся к их собственным, т. е. тем, которыми они занимались сами, и другим судебным делам. Аналитическая работа, связанная с получением общего представления, может быть в этом случае полезна тем, что позволяет находить те документы, которые, вероятно, будут наиболее актуальными для нового дела, что позволит в значительной степени сэкономить время сотрудников, получающих высокую зарплату, на поиск нужных документов, которые потребуются в суде.

Анализ тональности текста особенно полезен, если вы хотите обнаружить в тексте — помимо того, что в нем сообщается непосредственно, — тенденции, закономерности и неявные признаки общей позиции людей по какому-либо вопросу. Анализ тональности текста, также известный как интеллектуальное извлечение «субъективной» информации — оценочных суждений, аттитюдов, эмоций, чувств, верований и т. п., применяется для выявления в тексте субъективного мнения или чувства, т. е. полученные таким образом данные могут быть положительной, отрицательной или нейтральной тональности.

И наконец, обобщение информации, содержащейся в документах, позволяет автоматически их объединять, используя компьютерную программу, чтобы сохранить наиболее важные части исходных документов. Это может быть очень полезно, если вам приходится много читать, но вам на это не хватает времени. Поисковые устройства также используют эту технологию, чтобы в обобщенном виде показать сайты, имеющие отношение к результатам поиска.

Вопросы, на которые можно получить ответ с помощью инструмента

Аналитическая обработка текстов особенно полезна для поиска информации, распознавания образов, маркировки и аннотирования, извлечения информации, оценки настроений и прогнозной аналитики. По сути, речь идет о получении из текста дополнительной информации, благодаря чему этот текст становится более полезным, т. е. не ограничивается только тем фактическим содержанием, которое в нем имеется.

Кластерный анализ текста

Таким образом, этот инструмент может помочь вам ответить на следующие и им подобные вопросы.

  • Что мои заказчики/работники думают о моем продукте?
  • Как воспринимается наш бренд как работодателя среди пользователей Твиттера?
  • Какие жалобы, с которыми к нам обращаются заказчики, наиболее серьезны?
  • Какие тренды, если судить по условиям поиска, которыми люди пользуются на нашем сайте, являются ключевыми?

Как следует пользоваться инструментом

Во-первых, текст, который вы хотите проанализировать, должен быть не только оцифрован, но и представлен в виде данных. Это важное различие. По некоторым оценкам, после изобретения Иоганном Гутенбергом в середине XV в. печатного станка были опубликованы более 130 млн книг. К 2012 г. по проекту Google Book были отсканированы более 20 млн из них, т. е. более 15% всего письменного наследия мира! Это очень много текста. Если вы скопировали страницу из книги в формате JPEG или сфотографировали страницу из книги, вы технически получили цифровую копию текста, но если вы хотите провести аналитическую обработку текста, то эта часть работы не представляет никакой ценности.

Вам нужно представить этот текст в виде данных, как это делается, как мы видим, с текстами многих электронных книг. Такие книги фирм Kobo или Amazon Kindle позволяют не только читать страницы, представленные в цифровом виде, но и взаимодействовать с текстом. Вы можете, например, изменять размер шрифта, добавлять заметки, выделять текст или искать в книге конкретные слова и фразы. Имеющиеся у большинства компаний тексты уже представлены в виде данных, однако, если вы храните старые записи о заказчиках в бумажном виде, вам нужно будет их подготовить, причем не просто создать электронную копию документа, а повторно воспроизвести его в цифровом виде.

В процессе подготовки также важно удалить из анализируемого текста так называемые «стоп-слова», к которым относятся некоторые предлоги. Они часто встречаются во всем тексте, но не несут никакой уникальной информации о содержании или значении текста.

Стоп-слова

После того как текст к анализу подготовлен, вы можете выбрать один из возможных вариантов его проведения. Ваш выбор будет определяться той целью, для достижения которой вы собираетесь провести данный анализ.

Если вы хотите узнать больше о различных методах аналитической обработки текстов, а также о том, как ими пользоваться, обратитесь к поисковым системам. Или, как вариант, вы можете воспользоваться множеством доступных инструментов аналитической обработки текстов, предлагаемых на рынке, которые могут помочь в решении этой задачи.

Практический пример

Возможно, вы обеспокоены степенью вовлеченности сотрудников и приняли решение провести исследование на этот предмет.

Самым простым способом сбора необходимых исходных данных является в той или иной форме количественный опрос, при проведении которого сотрудников можно попросить оценить работодателя и высказать свое мнение по целому ряду различных вопросов, отметив его на соответствующих шкалах. Однако по-настоящему полезными и очень информативными, образно говоря, кладезями мудрости, обычно бывают вопросы открытого типа, которые позволяют сотрудникам подробно изложить свои взгляды и привести примеры. Однако этот тип качественных данных оценить гораздо сложнее. Вы можете прочитать сотни анкет, после чего у вас, возможно, появится несколько хороших идей или ощущение того, кто в организации доволен, а кто нет, но при этом вы не получите конкретных свидетельств о тенденциях или о том, что действительно чувствует коллектив. Но если вы воспользуетесь аналитической обработкой текстов, ее результаты позволят вам оценить содержание текучих, зыбких неструктурированных текстов и выявить тенденции или кластеры мнений, существующие в вашей компании в целом, а также в ее подразделениях и даже в отдельных командах.Открытые и закрытые вопросы

Обзоры такого рода могут, например, быть преобразованы в облако ключевых слов — тегов, которое охватывает все текстовые данные, полученные из вопросников, а затем можно решить следующую задачу: распределить данные, содержащиеся в нем, по тем людям, которые упоминают каждое конкретное слово, и посмотреть, какое число людей воспользовалось каждым из них. Поэтому «самым большим» в облаке тегов будет слово, которым воспользовались больше всего людей. Если, например, такими самыми большими словами в облаке при проведении обследования были «обида» или «несчастный», у вас, очевидно, есть проблемы.

Я знаю одну организацию, которая использует текстовую аналитику прежде всего для того, чтобы избежать проведения обследований вроде того, о котором рассказывалось выше. Вместо этого в ней просто сканируют и анализируют содержание писем, отправляемых их сотрудниками, а также их посты в социальных сетях, в Facebook или Твиттере. Это позволяет руководству компании точно определять степень вовлеченности персонала, не затрачивая при этом времени и средств, необходимых для проведения традиционного опроса.

О чем не нужно забывать

Само наличие у вас текстовых данных вовсе не означает, что вам нужно их аналитически обработать. Сначала убедитесь, что вы знаете, что именно вы пытаетесь отыскать или что имеете четкое представление о своей цели и причине для проведения такого анализа.

Часто владельцы компаний или топ-менеджеры действительно могут испытать сильные эмоции при применении аналитической обработки текстов, особенно когда они сталкиваются с огромным количеством данных, представленных в текстовом формате и хранящихся в их архивном помещении или в подвале. Однако преобразование бумажных текстовых документов в тот вид, который может быть использован для анализа текста, может быть очень длительным и дорогостоящим процессом, поэтому убедитесь, что у вас есть действительно веские основания для этого. Кроме того, у большинства данных имеется определенный срок годности, поэтому если какие-то данные устарели, они в любом случае вряд ли вам пригодятся. В связи с этим уделяйте внимание новым текстовым данным, к которым у вас есть доступ.

Аналитическая обработка текстов осуществляется, как правило, с использованием коммерческого программного обеспечения. Очень хорошие материалы по этим программам вы можете получить у многих их поставщиков, в том числе SAS и IBM SPSS.

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (4 оценок, среднее: 4,25 из 5)
Загрузка...