当前位置: 首页 > news >正文

北京互联网公司开发的网站营销案例

北京互联网公司开发的网站,营销案例,网站怎么建设原始站点,高新建设网站电话初赛之特征构造 写在前面一、安装paddleOCR二、代码部分三、模型优缺点四、写在最后 写在前面 通过前面两篇文章的介绍,我们可以大致的知道模型用到的特征分为四块:qCap,qImg,captions,imgs。根据这些特征&#xff0c…

初赛之特征构造

  • 写在前面
  • 一、安装paddleOCR
  • 二、代码部分
  • 三、模型优缺点
  • 四、写在最后

写在前面

通过前面两篇文章的介绍,我们可以大致的知道模型用到的特征分为四块:qCap,qImg,captions,imgs。根据这些特征,我们得到的模型效果在0.7左右。是否能加入更多的特征,进一步提升模型的效果呢?

通过数据分析,我们发现了部分图片中存在文字且具有判断文本类别的作用。所以,本文采用paddleocr模型来提取图像中的文字特征。

一、安装paddleOCR

在安装paddleOCR前,需要安装依赖组件Shapely

pip install Shapely

接下来,就可以安装paddleOCR了,也是一行代码就完成安装

pip install --user paddleocr -i https://mirror.baidu.com/pypi/simple

接下来我们就可以进行测试了

from paddleocr import PaddleOCR
import os
os.environ['KMP_DUPLICATE_LIB_OK']='TRUE'captions_list = []
# Paddleocr目前支持中英文、英文、法语、德语、韩语、日语,可以通过修改lang参数进行切换
# 参数依次为`ch`, `en`, `french`, `german`, `korean`, `japan`。
ocr = PaddleOCR(use_angle_cls=True, lang="ch")  # need to run only once to download and load model into memory
caption = []
img_path = '0.jpg'
result = ocr.ocr(img_path, cls=True)
for idx in range(len(result)):res = result[idx]print(res)for line in res:if line[1][1]>0.9:   # line[1][1]是提取文本的置信度print(line[1][0])   # line[1][0]是提取文本# 显示结果
from PIL import Image
result = result[0]
image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='/path/to/PaddleOCR/doc/fonts/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')

测试结果如下
请添加图片描述
可以发现,识别效果还是不错的。

paddleOCR以ppocr轻量级模型作为默认模型,如果你想尝试更多,可以参考以下链接的第3节自定义模型进行自定义更换。
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/doc/doc_ch/whl.md

二、代码部分

运行该部分代码,可以得到train、test、val各个img文件夹中图片中的文字,一行文字代表一张图片。

#读取数据
import json
from paddleocr import PaddleOCR
import os
os.environ['KMP_DUPLICATE_LIB_OK']='TRUE'data_items_train = json.load(open("queries_dataset_merge/dataset_items_train.json",'r',encoding='UTF8'))
data_items_val = json.load(open("queries_dataset_merge/dataset_items_val.json",'r',encoding='UTF8'))
data_items_test = json.load(open("queries_dataset_merge/dataset_items_test.json",'r',encoding='UTF8'))# 写入txt文件
def load_ocr_captions(context_data_items_dict,queries_root_dir,split):if split == 'train':fname = 'ocr/ocr_qimg_train.txt'if split == 'val':fname = 'ocr/ocr_qimg_val.txt'if split == 'test':fname = 'ocr/ocr_qimg_test.txt'# image_path = os.path.join(queries_root_dir,fname)# Paddleocr目前支持中英文、英文、法语、德语、韩语、日语,可以通过修改lang参数进行切换# 参数依次为`ch`, `en`, `french`, `german`, `korean`, `japan`。with open(fname, 'w', encoding="UTF8") as f:for key in range(len(context_data_items_dict)):print(key)captions_list = []image_path = os.path.join(queries_root_dir, context_data_items_dict[str(key)]['image_path'])ocr = PaddleOCR(use_angle_cls=True, lang="ch",show_log=False)  # need to run only once to download and load model into memoryresult = ocr.ocr(image_path, cls=True)for idx in range(len(result)):res = result[idx]for line in res:if line[1][1] >= 0.8:  # 置信度captions_list.append(line[1][0])captions = ",".join(captions_list)f.write(captions+'\n')#### load Datasets ####
train_dump_ocr_captions= load_ocr_captions(data_items_train, 'queries_dataset_merge','train')
val_dump_ocr_captions = load_ocr_captions(data_items_val,'queries_dataset_merge','val')
test_dump_ocr_captions = load_ocr_captions(data_items_test,'queries_dataset_merge','test')

三、模型优缺点

优点是模型识别的准确率较高,缺点是模型不能多线程跑,读完整个数据集耗时1day。建议在入模前就通过ocr采集存储每个图片的文字,后续调用,直接通过图片id匹配即可。

四、写在最后

文本主要展现用什么方法来做数据特征加工,对baseline改动的代码就不贴了,想要的uu们可以私信我。

本次记录主要还是以学习为主,抽了工作之余来进行OCR特征加工。探索了一个带大家最快上手的路径,降低大家的入门难度。

看完觉得有用的话,记得点个赞,不做白嫖党~

http://www.mmbaike.com/news/54889.html

相关文章:

  • 厦门手机网站建设公司哪家好手机优化大师哪个好
  • 桐柏网站建设百度推广开户怎么开
  • 建设部幼儿园网站首页竹子建站官网
  • 免费一键生成名片北京seo优化排名推广
  • 南宁电子推广网站盘古百晋广告营销是干嘛
  • 广东网站建设服务怎么做品牌推广和宣传
  • 湖南建设信誉查询网站广告公司
  • 企业如何注册自己的网站兰州seo优化
  • 小型购物网站模板直通车推广技巧
  • ps做网站导航营销策划公司经营范围
  • wordpress主题阿里百上海优化营商环境
  • 做电脑网站与手机上的一样吗怎么样进行网络推广
  • 网站有没有做301百度推广开户代理
  • p2p网站制作郑州搜索引擎优化的概念
  • 用腾讯云做网站网络营销策划书模板
  • 做网站的 深圳百度推广怎么登陆
  • pc端微信端网站建设临沂百度推广多少钱
  • 临沧网站建设大数据分析营销平台
  • 河东做网站5000元网站seo推广
  • 工业设计网站设计世界杯竞猜
  • 房地产最新消息房价会涨吗重庆二级站seo整站优化排名
  • ssh做电商 网站中国新闻发布
  • app取代网站百度官网首页入口
  • 成都网站制作公司dedecms百度app下载安装
  • 网站是否必须做认证网页设计模板免费网站
  • 欧卡乐网站建设seo推广培训资料
  • 帝国cms 调用网站名称成都十大营销策划公司
  • 做订阅号要建立网站吗北京疫情最新情况
  • 网页网站怎么做的吗工具大全
  • 公司网站域名cn和com视频广告接单平台