深度|RatingToken使用情感分析功能量化项目口碑

9月26日,市面上出现了一款通过分析资讯文本来预测投资者情感认知倾向的产品——RatingToken情感分析。社群是评估区块链项目的一项重要指标。当前行业内的产品在社群指标上,大多数偏向以项目社群粉丝数、发言量等维度衡量社群指标,这些维度还远远不足,这些社群指标维度忽视了投资者的情感倾向。市场具有反身性的特点,投资者对项目估值的预期会随着自身接触到的资讯面扩充而改变,并付诸实际投资行为,以至于反向影响项目市值波动,而情感倾向更接近投资者对项目估值的预期。如果谁能接近这些投资者的预期,洞察投资者情感倾向,那么谁将能提前预测项目市值的波动。

在市场上未有能将情感分析技术成熟应用到区块链领域的空白期,RatingToken拥有深度学习技术产品化和海量数据基础的优势,在已上线的情感分析功能Beta版本已经可以预测正面、负面、中立面三种情感倾向,并且首批开放了约200个项目的情感数据。

作为猎豹移动旗下项目,RatingToken情感分析在深度学习技术产品化的道路上,充分借鉴了猎豹移动旗下千万级用户的输入法产品Cheetah Keyboard的经验。同时,猎豹区块链安全中心专家TonTon Huang(黃獻德)是人工智能领域的专家,在网络安全与人工智能领域有着深厚的研究,已经陆续发表了《R2-D2: ColoR-inspired Convolutional NeuRal Network (CNN)-based AndroiD Malware Detections》等研究成果。基于以上两点,RatingToken在深度学习技术上拥有强大实力底蕴。

此外,RatingToken的项目库中包含了10000+区块链项目,收集了这些项目包括Facebook,Twitter和Telegram等社交媒体中的用户评论。目前已经积累了3000多万句用户评论数据。通过这些海量数据迭代情感分析模型,可以极大的提高情感分析模型预测的准确性,RatingToken将持续研究情感分析相关技术,并深耕这一领域。

RatingToken的情感分析模型主要包括4个功能模块:Parser模块、Tokenizer模块、Embedding模块、NLP模型模块。

Parser模块可以检测输入数据语言,从输入数据中删除不必要的单词或者符号,减少干扰字符,增强NLP模型的稳健性。

Tokenizer模块(基于Stanford NLP Group的GloVe)的作用是将输入单词转换为数字,RatingToken从多个社交网络收集单词并创建了一个包含1500万字的大型标记器。

Embedding模块负责将单词标记转换为特征向量,以便接入到LSTM+CNN模型。

 

LSTM+CNN的NLP模型模块作用是分析文本情感。其中LSTM负责“序列依赖”,能够在用户评论中捕捉到随序列不断变化的情绪,例如:”I hated her at first, but after a while, I started to like her slowly”,这样一句话前后表达的是相互矛盾的观点,但是通过LSTM可以学习到句子结尾处表达的意思比一开始表达的意思更重要。而CNN负责“本地特征”,能够捕捉到用户评论中特定的带有情绪性的词或者短语,而不管这个词或者短语出现在评论的什么位置。 

模型的设计可以保证每个文本的情感评分的准确性。但在计算项目评分时,会出现相同评分的问题:当出现项目A、B评分相同,项目A有1000条文本,项目B只有1条文本,如果只是简单的计算加权得分无法体现项目A和B在数据上的差别。因此RatingToken设计了一个基于评论量的得分算法。 

RatingToken坚持开放合作的态度,现已在官网开放了数据API申请通道。目前合作伙伴Coin Master已将情感分析数据接入到自身行情页面,作为评估项目的一个维度。欢迎更多的行业机构媒体等合作伙伴,访问RatingToken官网情感分析页面,在“合作与反馈”模块进行情感分析数据API申请,与RatingToken携手共创区块链生态美好未来。