rasa中文語言模型spacy的配置

發(fā)布時間：2021-09-18 11:01:58 來源：億速云閱讀：926 作者：chen 欄目：大數(shù)據(jù)

本篇內(nèi)容介紹了“rasa中文語言模型spacy的配置”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠學有所成！

spacy最新版本開始支持中文

1, 下載中文語言模型 zh_core_web_md-2.3.1.tar.gz

下載地址:https://spacy.io/models/zh

2,rasa 聊天機器人 config.yml 改進配置:

language: zh
pipeline:
- name: SpacyNLP # 預訓練詞向量
model: "zh_core_web_md"
- name: SpacyTokenizer # 文本分詞器
- name: SpacyEntityExtractor #文本特征化
- name: SpacyFeaturizer #特征提取器將一句話變成一個向量
pooling: mean
- name: CountVectorsFeaturizer #創(chuàng)建用戶信息和標簽(意圖和響應)的詞袋表征為意圖分類和 response selection創(chuàng)建特征
- name: CountVectorsFeaturizer
analyzer: "char_wb"
min_ngram: 1
max_ngram: 4
- name: DIETClassifier #意圖分類
epochs: 100
- name: EntitySynonymMapper #同義實體
- name: ResponseSelector
epochs: 100

# Configuration for Rasa Core.
# https://rasa.com/docs/rasa/core/policies/
policies:
- name: MemoizationPolicy
- name: TEDPolicy
max_history: 5
epochs: 100
- name: MappingPolicy
~

直接在nlu.md中寫入中文：

## intent:greet
- 你好
- 您好
- hi
- 早上好
- 中午好
- 晚上好

## intent:goodbye
- 再見
- 回頭見
- 拜拜

## intent:affirm
- 好的
- 好
- 行

## intent:deny
- 不行
- 不可以
- 不同意
- 沒門

## intent:bot_challenge
- 你是人嗎
- 你是機器人嗎
- 我在和機器人說話嗎
- 我在和人說話嗎?
~

3，如何挑選哪個意圖分類的組件？

組件有兩類預訓練Embedding 和監(jiān)督式Embedding。

第一類預訓練Embedding： sklearnintentclassifier

使用 spaCy library加載預訓練語言模型，包含中文。

什么時候使用此組件？滿足項目場景的預訓練詞嵌入存在，且能適用于項目時。

第二類監(jiān)督式Embedding：embeddingintentclassifier

從0開始訓練詞嵌入。通常和 countvectorsfeaturizer 組件一起使用。

特點：需要足夠的訓練數(shù)據(jù)，此分類器獨立于語言，只帶多意圖的消息，十分靈活。

“rasa中文語言模型spacy的配置”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關的知識可以關注億速云網(wǎng)站，小編將為大家輸出更多高質量的實用文章！

向AI問一下細節(jié)

rasa中文語言模型spacy的配置

猜你喜歡

最新資訊

相關推薦

相關標簽