2017年下半年有一段时间因为工作涉及AI人工智能,曾经短时间研究过,本文只是初步的研究成果,纯粹是抛砖引玉。
之前文章介绍了网络爬虫,实际上,也会AI有密切关系,因为AI在进行智能分析的之前,需要对数据进行建模,因此通过爬虫技术,在网络上获取建模数据可以提升AI处理的效率和准确性。
下面先对业务需求进行描述:假设需要对用户提问的疾病问题进行自动分类,比如呼吸科、心内科、消化内科等,自动归集起来。
处理步骤为:
1、先爬取部分医药网站的归类问题
2、使用AI对这些问题进行训练
3、通过输入某类疾病问题,验证识别效果
一、数据爬取
本示例使用的是“问医生”(https://www.jiankang.com)网站的数据,会将每个问题内容爬取到单独的文件中。
二、数据处理代码
from sklearn.datasets import load_files
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from nerutils import *
from sklearn.linear_model import SGDClassifier
# 选取参与分析的文本类别
categories = ['呼吸内科', '心内科', '消化内科']
train_path='category/train'
# 从硬盘获取原始数据
twenty_train=load_files(train_path,
categories=categories,
load_content = True,
encoding='utf-8',
decode_error='strict',
shuffle=True, random_state=42)
# 统计词语出现次数
count_vect = CountVectorizer()
for index in range(len(twenty_train.data)):
twenty_train.data[index] = ' '.join(ner( twenty_train.data[index]))
from sklearn.pipeline import Pipeline
# 建立Pipeline
text_clf = Pipeline([('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', SGDClassifier(loss='hinge',
penalty='l2',
alpha=1e-3,
n_iter=5,
random_state=42)),
])
# 训练分类器
text_clf = text_clf.fit(twenty_train.data, twenty_train.target)
# 打印分类器信息
print(text_clf)
# 读取测试数据
categories = ['呼吸内科']
test_path = 'category/test'
test_train=load_files(test_path,
categories=categories,
load_content = True,
encoding='utf-8',
decode_error='strict',
shuffle=True, random_state=42)
for index in range(len(test_train.data)):
test_train.data[index] = ' '.join(ner( test_train.data[index]))
test_train.target = [0]*len(test_train.target)
docs_test = test_train.data
# 使用测试数据进行分类预测
predicted = text_clf.predict(docs_test)
print("分类数据:" + str(predicted))
score = text_clf.score
# 计算预测结果的准确率
import numpy as np
print("准确率为:")
print(np.mean(predicted == test_train.target) * 100)
下面是测试输出的结果,准确率100%,很意外!
分类数据:[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0]
准确率为:
100.0
因为该工作只持续了一个月左右,所以后续没有更深层的应用,不过就个人行业经验来看,AI对于很多方面确实有非常大的补充,单就这个分类来说,可以使用的业务范围非常多,比如一个汽车调研项目,需要从各类网站收集汽车信息,然后进行归类,可以按照排量、质量、发动机等等,通过AI预先将信息进行分类,然后再进行BI处理。
其他更多应用,欢迎各位朋友参与讨论。
- 大小: 29.4 KB
分享到:
相关推荐
随着深度学习算法的兴起和普及,人工智能领域取得了令人瞩目的进步。如今在AI图像识别领域更是发展迅速。通过AI图像识别可以将以前只能人工完成的任务转换为由计算机自动完成。例如,只要扫一扫身份证、银行卡、驾驶证...
我们目前生活在人工智能时代。用于自动化流程的图像,包括徽标、广告、库存图像等的图像生成。因此,这里我们将使用OpenAI 通过 Python [ChatGPT API] 生成图像。DALL – E 模型有多种用途,今天我们将讨论如何使用...
基于Python的人工智能美颜系统(附源代码).zip
Python人工智能识别系统源码合集16套源码(含指纹、语音、车牌、人脸、图形、证件等等).zip
基于python的AI核心代码 打入问题计算机自动回答 替换了:你—我、吗—(去掉)、?—!等 欢迎下载使用!!!!!!!!!
Python调用人工智能识别表格.zip是一个实用的Python自动化办公源码,旨在帮助用户通过Python编程实现对表格文件的自动识别和处理。这个源码主要利用了人工智能技术,可以高效地识别各种类型的表格文件,如Excel、CSV...
使用python自动化剪辑视频
毕业设计:python基于语音识别的智能垃圾分类系统的设计(源码 + 数据库 + 说明文档) 第2章 可行性分析 3 2.1 业务流程图 3 2.2 经济可行性 4 2.3 技术可行性 4 2.4 运行可行性 4 2.5 本章小结 4 第3章 需求分析 5 ...
step4,按照Getting Started执行即可,推荐使用PyCharm Getting Started python get_data.py --name ssq # 执行获取双色球训练数据 如果出现解析错误,应该看看网页 ...
2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。...
人工智能是一种未来性的技术,目前正在致力于研究自己的一套工具。一系列的进展在过去的几年中发生了:无事故驾驶超过300000英里并在三个州合法行驶迎来了自动驾驶的一个里程碑;IBM Waston击败了Jeopardy两届冠军;...
做得不好仅供参考 菜鸟做得,没什么用,就分享一下把.................
人工智能(Artificial Intelligence,简称AI)是一种前沿的计算机科学技术,其核心目标是通过模拟、延伸和拓展人类智能来构建智能机器与系统。它融合了计算机科学、数学、统计学、心理学、神经科学等多个学科的知识...
人工智能与自动化 Python课程设计卷积神经网络手写数字识别系统源代码。 流程 参数配置文件的加载 with open(params_path) as params_file: self.params = yaml.load((params_file)) 这里使用了yaml文件作为配置...
Python是一种跨平台的计算机程序设计语言。 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、...
Mask R-CNN for Pulmonary Nodules Diagnosis, using TensorFlow 天池医疗AI大赛:Mask R-CNN肺部结节智能检测(Segmentation Classification)
python中文库-python人工智能大数据自动化接口测试开发。 书籍下载及python库汇总https://china-testing.github.io/
基于文心大模型的AI机器人画画python源码是一种非常有趣和创新的技术。它利用人工智能和机器学习...无论是对技术爱好者还是艺术爱好者来说,这个基于文心大模型的AI机器人画画Python源码都是一个值得探索和尝试的项目。
【适用人群】AI模型训练(图像分类/分割) 【适用场景】当我们用lableMe标注好了文件后,一般需要对已标注数据集进行有效划分的需求,确保训练过程的准确性以及测试结果的公正性。通过该项目文档的工具,可以根据...
人工智能(Artificial Intelligence,简称AI)是一种前沿的计算机科学技术,其核心目标是通过模拟、延伸和拓展人类智能来构建智能机器与系统。它融合了计算机科学、数学、统计学、心理学、神经科学等多个学科的知识...