Determination of Potential Criminals in Text Analysis: Case of Study

José Alberto Hernández Aguilar

Esta investigación está orientada a clasificar textos usando Redes Neuronales Artificiales (RNA) específicamente el Perceptron Multicapa (PMC) con Técnicas básicas de palabras embebidas. La clasificación consiste en determinar ya sea que el texto tenga un contexto criminal o no por medio de reconocimiento de patrones. El PMC fue entrenado bajo entrenamiento supervisado y en un rango corto de vocabulario y registros de entrenamiento, cada uno de los cuales tiene una longitud máxima de 300 palabras para hacer procesos de clasificación. Analizar estos tipos de textos podría ayudar a las fuerzas de seguridad del gobierno, a los militares, etc. para fácilmente detectar gente que podría dañar a la población y predecir posibles ataques y prevenirlos. El software desarrollado necesita más técnicas de palabras embebidas, un vocabulario más grande y más registros de entrenamiento para ser más eficiente. El conjunto de datos consiste de dos clases principales que están organizadas como textos de tipo criminal y regular. This research is oriented to classify text using Artificial Neural Networks (ANN) specifically Multilayer Perceptron (MLP) with basic word embedding techniques. The classification consists in determining whether the text has criminal background or not by pattern recognition. The MLP was trained under supervised training and so far with a short range of vocabulary and training records, which each one has a maximum length of 300 words to make the classification process. Analyzing these types of text could help security forces of government, military, etc. to easily detect people who could harm the population and predict possible attacks and prevent them. The developed software needs more word embedding techniques, a larger vocabulary and more training records to be more efficient. The dataset consist of two main classes that are organized as crime and regular type of text.

Tipo de documento: Artículo

Formato: Adobe PDF

Audiencia: Investigadores

Idioma: Inglés

Área de conocimiento: CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA

Campo disciplinar: LÓGICA

Nivel de acceso: Acceso Abierto