AI人工智能應用實例
本文從化工制藥領域、服裝紡織領域、材料加工領域、電力電機領域、醫藥醫學領域、金融保險領域、新聞媒體領域、網絡安全領域等具體的展示了AI人工智能應用實例。
一、化工制藥領域
應用背景
天津漢德威藥業有限公司是一家原料藥制造企業,聚焦智能制造。近年來,人工智能在工藝參數優化以及視頻檢測等領域取得了突飛猛進的成果。AI技術的發展有望助力原料藥制造企業實現工藝生產革新,規范生產操作過程,從而達到提高產品的收率的目標。本項目以原料企業工藝優化為課題,要求以異煙酸生產過程中的各參數,設計精確智能的優秀算法,提升異煙酸的收率,助力企業實現轉型升級,提升領域競爭力。
應用描述
異煙酸用作醫藥中間體,主要用于制抗結核病藥物異煙肼,也用于合成酰胺、酰肼、酯類等衍生物。煙酰胺生產過程包含水解脫色、結晶甩濾等過程。每個步驟會受到溫度、時間、壓強等各方面因素的影響,造成異煙酸收率的不穩定。為保證產品質量和提高生產效率,需要調整和優化生產過程中的參數。然而,根據傳統經驗的人工調整工藝參數費時費力。公司要求以異煙酸生產過程中的各參數,包括各主要步驟的時間、溫度、壓強等參數為基礎,設計精確智能的優秀算法,提升異煙酸的收率。
應用數據
公司提供脫敏后的實際生產數據。數據包含有2000批次來自實際異煙酸生產中的各參數的監測指標和最終收率的數據。監測指標由兩大工序數十個步驟構成。總生產步驟達30余項,工序和步驟分別用字母和數字代號表示,比如A2,B5分別表示A工序第二步驟和B工序第五步驟。
二、服裝紡織領域
應用背景
江蘇陽光集團從事服裝紡織行業。服裝布匹疵點檢驗是紡織領域生產和質量管理的重要環節,目前的人工檢驗速度慢、勞動強度大,受主觀因素影響,缺乏一致性。2016年我國布匹產量超過700億米,且產量一直處于上升趨勢,將人工智能和計算機視覺技術應用于紡織領域,對紡織領域的價值無疑是巨大的。
應用描述
本項目要求開發算法模型,通過布樣影像,基于對布樣中疵點形態、長度、面積以及所處位置等的分析,判斷瑕疵的種類 。通過探索布樣疵點精確智能診斷的優秀算法,提升布樣疵點檢驗的準確度,降低對大量人工的依賴,提升布樣疵點質檢的效果和效率。
應用數據
公司提供布料樣本,包括布樣、取樣環境、疵點判斷標準。樣本數據涵蓋紡織業中素色布的各類重要瑕疵。數據共包括2部分:原始圖片和瑕疵的標注數據。訓練數據文件結構如下:
a) 提供用于訓練的圖像數據和標注數據,文件夾結構如下:
o 正常
o 薄段
o 筆印
…
o織稀
b) 正常 : 存放無瑕疵的圖像數據,jpeg編碼圖像文件。圖像文件名如:XXX.jpg
c) 薄段、筆印、…、織稀: 按瑕疵類別分別存放瑕疵原始圖片和用矩形框進行瑕疵標注的位置數據。圖像文件jpeg編碼。標注文件采用xml格式,其中filename字段是圖像的文件名,name字段是瑕疵的類別,bndbox記錄了矩形框左上角和右下角的位置。圖像左上角為(0,0)點,向右x值增加,向下y值增加。
defect code和瑕疵的對應關系:
norm | defect_1 | defect_2 | defect_3 | defect_4 | defect_5 | defect_6 | defect_7 | defect_8 | defect_9 | defect_10 |
正常 | 扎洞 | 毛斑 | 擦洞 | 毛洞 | 織稀 | 吊經 | 缺經 | 跳花 | 油/污漬 | 其他 |
注:“其他”代表剩余所有類型的瑕疵
三、材料加工領域
應用背景
鋁型材是佛山南海的支柱性產業。近年來,深度學習在圖像識別等領域取得了突飛猛進的成果。鋁型材制造商希望采用AI技術使鋁型材產品的生產管理者徹底擺脫無法全面掌握產品表面質量的狀態,助力企業實現轉型升級,提升領域競爭力。
應用描述
在鋁型材的實際生產過程中,由于各方面因素的影響,鋁型材表面會產生裂紋、起皮、劃傷等瑕疵,這些瑕疵會嚴重影響鋁型材的質量。為保證產品質量,需要人工進行肉眼目測。然而,鋁型材的表面自身會含有紋路,與瑕疵的區分度不高。傳統人工肉眼檢查十分費力,不能及時準確的判斷出表面瑕疵,質檢的效率難以把控。鋁型材制造商希望采用AI技術來革新現有質檢流程,自動完成質檢任務,減少漏檢發生率,提高產品的質量。
應用數據
數據集里有1萬份來自實際生產中有瑕疵的鋁型材監測影像數據,每個影像包含一個或多種瑕疵。供機器學習的樣圖會明確標識影像中所包含的瑕疵類型。
瑕疵的衡量標準如下:
1. 型材表面應整潔,不允許有裂紋、起皮、腐蝕和氣泡等缺陷存在。
2. 型材表面上允許有輕微的壓坑、碰傷、擦傷存在,其允許深度裝飾面≯0.03mm,非裝飾面>0.07mm,模具擠壓痕深度≯0.03mm。
3. 型材端頭允許有因鋸切產生的局部變形,其縱向長度不應超過10mm。
4. 工業生產過程中,不夠明顯的瑕疵會被作為無瑕疵進行處理,不必拘泥于無瑕疵圖片中的不夠明顯的瑕疵。
5. 圖片采用矩形框進行標注,標注文件儲存成json文件,采用utf-8的編碼格式,可通過labelme開源標注工具直接打開。
四、電力機電領域
應用背景
火力發電的基本原理是:燃料在燃燒時加熱水生成蒸汽,蒸汽壓力推動汽輪機旋轉,然后汽輪機帶動發電機旋轉,產生電能。在這一系列的能量轉化中,影響發電效率的核心是鍋爐的燃燒效率,即燃料燃燒加熱水產生高溫高壓蒸汽。鍋爐的燃燒效率的影響因素很多,包括鍋爐的可調參數,如燃燒給量,一二次風,引風,返料風,給水水量;以及鍋爐的工況,比如鍋爐床溫、床壓,爐膛溫度、壓力,過熱器的溫度等。
應用描述
鍋爐傳感器采集數據(采集頻率是分鐘級別)。根據鍋爐的工況,預測產生的蒸汽量。
應用數據
經脫敏后的數據分成訓練數據(train.txt)和測試數據(test.txt),其中字段”V0”-“V37”,這38個字段是作為特征變量,”target”作為目標變量。首先利用訓練數據訓練出模型,預測測試數據的目標變量,排名結果依據預測結果的MSE(mean square error)。
五、醫藥醫學領域
應用背景
本項目由上海交通大學醫學院附屬瑞金醫院發起主辦,以人工智能輔助糖尿病知識圖譜構建為題,通過糖尿病相關的教科書、研究論文來進行糖尿病文獻挖掘并構建糖尿病知識圖譜。糖尿病是代謝性疾病,也是慢性疾病,中國是世界上糖尿病患者最多的國家,病人達到1.1億,每年有130萬人死于糖尿病及其相關疾病。糖尿病病因復雜,表現出的癥狀多種多樣,這為糖尿病的診斷和治療帶來了很大的困難。
應用描述
本項目旨在通過糖尿病相關的教科書、研究論文來做糖尿病文獻挖掘并構建糖尿病知識圖譜。需要設計高準確率,高效的算法來挑戰這一難題。分為兩個課題:“基于糖尿病臨床指南和研究論文的實體標注構建”、“基于糖尿病臨床指南和研究論文的實體間關系構建”。
應用數據
文件標注工作基于brat軟件(http://brat.nlplab.org/)。其中.txt文件為原始文檔,.ann文件為標注信息,標注實體以T開頭,后接實體序號,實體類別,起始位置和實體對應的文檔中的詞。如果需要在brat軟件中查看標注結果,需要添加.conf文件。
a) 對于第一個課題,瑞金提供與糖尿病相關的學術論文以及糖尿病臨床指南,要求在學術論文和臨床指南的基礎上,做實體的標注。實體類別共十五類。
類別名稱和定義
疾病相關:
1、疾病名稱 (Disease),如I型糖尿病。
2、病因(Reason),疾病的成因、危險因素及機制。比如“糖尿病是由于胰島素抵抗導致”,胰島素抵抗是屬于病因。
3、臨床表現 (Symptom),包括癥狀、體征,病人直接表現出來的和需要醫生進行查體得出來的判斷。如"頭暈" "便血" 等。
4、檢查方法(Test),包括實驗室檢查方法,影像學檢查方法,輔助試驗,對于疾病有診斷及鑒別意義的項目等,如甘油三酯。
5、檢查指標值(Test_Value),指標的具體數值,陰性陽性,有無,增減,高低等,如”>11.3 mmol/L”。
治療相關:
6、藥品名稱(Drug),包括常規用藥及化療用藥,比如胰島素。
7、用藥頻率(Frequency),包括用藥的頻率和癥狀的頻率,比如一天兩次。
8、用藥劑量(Amount),比如500mg/d。
9、用藥方法(Method):比如早晚,餐前餐后,口服,靜脈注射,吸入等。
10、非藥治療(Treatment),在醫院環境下進行的非藥物性治療,包括放療,中醫治療方法等,比如推拿、按摩、針灸、理療,不包括飲食、運動、營養等。
11、手術(Operation),包括手術名稱,如代謝手術等。
12、不良反應(SideEff),用藥后的不良反應。
常規實體:
13、部位(Anatomy),包括解剖部位和生物組織,比如人體各個部位和器官,胰島細胞。
14、程度(level),包括病情嚴重程度,治療后緩解程度等。
15、持續時間(Duration),包括癥狀持續時間,用藥持續時間,如“頭暈一周”的“一周”。
b) 對于第二個課題,瑞金提供與糖尿病相關的學術論文以及糖尿病臨床指南,需要從中抽取實體之間的關系。實體之間關系共十類。
實體關系類別名稱
1、檢查方法 -> 疾病(Test_Disease)
2、臨床表現 -> 疾病(Symptom_Disease)
3、非藥治療 -> 疾病(Treatment_Disease)
4、藥品名稱 -> 疾病(Drug_Disease)
5、部位 -> 疾病(Anatomy_Disease)
6、用藥頻率 -> 藥品名稱(Frequency_Drug)
7、持續時間 -> 藥品名稱(Duration_Drug)
8、用藥劑量 -> 藥品名稱(Amount_Drug)
9、用藥方法 -> 藥品名稱(Method_Drug)
10、不良反應 -> 藥品名稱(SideEff-Drug)
六、金融保險領域
應用背景
在金融領域,每24小時都會產生大約2.5億字節的數據,早已超過人腦處理的極限,面對全球百萬億美元的資產管理規模,領域迫切需要人工智能的加入,提升領域運行效率,讓投資變得更加智能。在股票市場大力提倡價值投資的背景下,準確預測公司未來營收,是理性投資者最重要的事情。買入盈利超預期的公司,避開盈利能力差的公司,才是投資的長久之道。按照定義,營業收入是企業在生產經營活動中,因銷售產品或提供勞務而取得的各項收入,它關系到企業的生存和發展,對企業有重要的意義。
應用描述
在投資研究過程中,上市公司公告是投資者的重要參考材料,挖掘公告重要信息是研究員每日的必要功課,但海量公告卻令人腦難以負荷。本項目將嘗試讓機器根據需求,自動抽取結構化數據,幫助研究員快速獲取投資線索。
* 相關名詞解釋
【信息披露(公告)】主要是指公眾公司以招股說明書、上市公告書以及定期報告和臨時報告等形式,把公司及與公司相關的信息,向投資者和社會公眾公開披露的行為。目前,上市公司所發布的公告,是投資者及社會公眾了解企業情況,進行投資決策的基本依據。
【股東增減持】由于上市公司股東、高管相較社會公眾更加了解公司的發展狀況,因此投資者會格外關注重要股東的買賣行為,并以此作為投資參考。比如:
“股東增持行為”通常表示公司股東對公司營收及發展前景有信心,投資者會跟隨追捧,有利于提升公司股價;
“股東減持行為”除股東個人原因外,也可能表示股東對公司發展信心不足,這會給投資者帶來一定負面影響,導致投資者拋售股票,公司股價下跌。
【定向增發】上市公司定向增發的主要目是通過融資擴張公司業務和規模,例如發起新項目,研發新技術,收購其他公司等。投資者可以通過定增目的了解公司的融資意圖,從而判斷公司前景以及投資價值。
【重大合同】上市公司簽署重大合同,有利于增加公司營業收入,投資者通過了解合同項目金額,可進一步預測公司未來的經營和業績情況,從而發掘投資機會。
應用數據
上交所、深交所發布的公告數據。本項目研究3種類型的數據:
1、原始公告pdf,以{公告id}.pdf命名;
2、公告pdf轉換的html文件,以{公告id}.html命名;
3、公告對應的結構化數據,以表格的格式給出,每種公告類型提供一份數據,每篇公告可能會對應多條數據,格式說明如下:
公告類型 | 主鍵 | 第1列 | 第2列 | 第3列 | 第4列 | 第5列 | 第6列 | 第7列 | 第8列 |
股東增減持 | 1-2-4 | 公告id | 股東全稱 | 股東簡稱 | 變動截止日期 | 變動價格 | 變動數量 | 變動后持股數 | 變動后持股比例 |
重大合同 | 1-2-3 | 公告id | 甲方 | 乙方 | 項目名稱 | 合同名稱 | 合同金額上限 | 合同金額下限 | 聯合體成員 |
資產重組 | 1-2-3 | 公告id | 交易標的 | 標的公司 | 交易對方 | 交易標的作價 | 評估方法 |
需要抽取的字段(Slot)結構如下(以股東增減持為例):
a、每條記錄包含8個字段,其中第一列為公告id,不需要進行抽取;
b、第1、2、4列構成主鍵,可以唯一確定一條數據;
c、其中“股東簡稱”、“變動價格”、“變動后持股數”、“變動后持股比例”可能為空;
股東增減持 | 列數 | 是否主鍵 | 是否可能為空 | 單位歸一化 | 數據類型 |
公告id | 1 | 是 | 否 | bigint(20,0) | |
股東全稱 | 2 | 是 | 否 | varchar | |
股東簡稱 | 3 | 是 | varchar | ||
變動截止日期 | 4 | 是 | 否 | datetime | |
變動價格 | 5 | 是 | decimal(22,4) | ||
變動數量 | 6 | 否 | 股 | bigint(20,0) | |
變動后持股數 | 7 | 是 | 股 | bigint(20,0) | |
變動后持股比例 | 8 | 是 | 百分比轉換成小數形式 | decimal(22,4) |
對每個字段、按如下方法進行判別和統計(只需要用到Possible、Actual和Correct):
類別 | 判斷標準 | 標記 |
Possible | 標準數據集中該字段不為空的記錄數 | POS |
Actual | 結果中該字段不為空的記錄數 | ACT |
Correct | 主鍵匹配 且 提交字段值=正確字段值 且 均不為空 | COR |
七、新聞媒體領域
應用背景
近年來隨著IOT,傳感器,無人機,攝像手段等的進步,媒體報道進入了一個前所未有的數字新聞環境,在新的環境中,如何利用數字化的事件描述信息來自動化或半自動化的高效輔助新聞報道寫作,成為了新媒體的一個重要課題。
應用描述
本項目以各國足球聯賽為目標,進行一場前所未有的AI新聞報道創作。目標是產出一套新聞報道的模板或算法,可以通過提供的信息自動寫作完成新聞報道。
應用數據
1. 新聞事件數據,各字段描述如下:
字段名稱 | 描述 |
n_ActionID | 行動ID |
n_ActionCode | 實際發生的事件Code |
c_Action | 行動事件,包括:傷停補時、開球、得分機會、更換隊長、比賽結束、任意球、進球、射門命中目標、視頻助理裁判、進球、換人、門將開球、黃牌、犯規、被門將撲救、越位、點球、點球罰失、球門線撲救、墜球、進球、紅牌罰下(單場得到第二張黃牌)、射門封堵、角球、射門被封堵、射門偏出、擊中橫梁、擊中門柱、烏龍球、直接紅牌罰下 |
c_ActionInfo | 有關行動的其他信息 |
c_ActionReason | 行動原因 |
n_ActionSort | 時間的排序ID |
d_ActionDateUTC | 行動時間(UTC時間) |
n_ActionTime | 發生的時間,毫秒級 |
c_ActionMinute | 發生的時間,分鐘 |
c_Period | 比賽階段 |
c_Team | 發生時間的球隊 |
n_PersonID | 事件對應的人ID |
c_Person | 事件對應的人 |
n_SubPersonID | 事件的關聯人ID |
c_SubPerson | 事件的關聯人 |
n_HomeOrAway | 是主隊還是客隊 |
n_HomeGoals | 主隊即時的得分 |
n_AwayGoals | 客隊即時的比分 |
n_XCoordinateStart | 球場x坐標 |
n_YCoordinateStart | 球場y坐標 |
n_YCoordinateGoalLine | 球門y坐標 |
n_ZCoordinateGoalLine | 球門z坐標 |
2. 新聞圖集數據,各字段描述數據如下:
字段 | 描述 |
ID | 比賽場次ID |
comment | 圖片描述 |
URL | 圖片下載地址 |
3. 歷史足球比賽新聞原文數據。數量級:1萬-10萬;
字段 | 描述 |
title | 新聞標題 |
content | 新聞內容 |
publish | 新聞發布時間 |
entities | 新聞中出現的實體信息(包括人物,組織,地域等) |
img_url_list | 新聞圖片鏈接 |
keywords | 從新聞中提取的關鍵詞。多個關鍵詞間使用逗號分隔 |
八、網絡安全領域
應用背景
作為AI和網絡安全防御的融合邊界的探索,在過去幾年中,安全和算法交叉領域的各路英豪已經展現了人工智能在網頁內容分析,webshell檢測,掃描爆破攔截,web攻擊防御等領域的強大量。現在我們聚焦惡意文件云檢測這一問題,讓云計算的數據優勢通過AI算法轉化為行業解決方案,讓病毒木馬無所遁形,讓“云計算”與“安全”發生新的化學反應。
惡意軟件是一種被設計用來對目標計算機造成破壞或者占用目標計算機資源的軟件,傳統的惡意軟件包括蠕蟲、木馬等,這些惡意軟件嚴重侵犯用戶合法權益,甚至將為用戶及他人帶來巨大的經濟或其他形式的利益損失。近年來隨著虛擬貨幣進入大眾視野,挖礦類的惡意程序也開始大量涌現,黑客通過入侵惡意挖礦程序獲取巨額收益。當前惡意軟件的檢測技術主要有特征碼檢測、行為檢測和啟發式檢測等,配合使用機器學習可以在一定程度上提高泛化能力,提升惡意樣本的識別率。
應用描述
應用提供的數據來自文件(windows 可執行程序)經過沙箱程序模擬運行后的API指令序列,全為windows二進制可執行程序,經過脫敏處理。提供的樣本數據均來自于從互聯網。其中惡意文件的類型有感染型病毒、木馬程序、挖礦程序、DDOS木馬、勒索病毒等,數據總計6億條。
應用數據
1)訓練數據(train.zip):調用記錄近9000萬次,文件1萬多個(以文件編號匯總),字段描述如下:
字段 | 類型 | 解釋 |
File_id | bigint | 文件編號 |
label | bigint | 文件標簽,0-正常/1-勒索病毒/2-挖礦程序/3-DDoS木馬/4-蠕蟲病毒/5-感染型病毒/6-后門程序/7-木馬程序 |
Api | string | 文件調用的API名稱 |
Tid | bigint | 調用API的線程編號 |
index | string | 線程中API調用的順序編號 |
注1:一個文件調用的api數量有可能很多,對于一個tid中調用超過5000個api的文件,我們進行了截斷,按照順序保留了每個tid前5000個api的記錄。
注2:不同線程tid之間沒有順序關系,同一個tid里的index由小到大代表調用的先后順序關系。
注3:index是單個文件在沙箱執行時的全局順序,由于沙箱執行時間有精度限制,所以會出現一個index上出現同線程或者不同線程都在執行多次api的情況,可以保證同tid內部的順序,但不保證連續。
2)測試數據(test.zip):調用記錄近8000萬次,文件1萬多個。
說明:格式除了沒有label字段,其他數據規格與訓練數據一致。