신소재 발굴 등 개발 활동이 많은 LG 계열사의 활용도가 높을 것으로 예상합니다.
LG AI Hub 및 LG 그룹 내 공유. 기대 : - 화학 관련 특허 문헌에 포함 된 복잡하고 많은 화학 구조 이미지를 인식하여 검색 효율을 높일 수있는 기술로 활용 가능합니다.
Unet이란? :
The automatic recognition of chemical structure diagrams from the literature is an indispensable component of workflows to re-discover information about chemicals and to make it available in open-access databases.
문헌으로부터 화학구조도의 자동인식은 화학물질에 대한 정보를 다시 검색하고 개방형 접속 데이터베이스에서 사용할 수 있도록 하기 위해 워크플로우의 필수 불가결한 구성요소다.
The automatic recognition of chemical structure diagrams from the chemical literature (herein termed Optical Chemical Entity Recognition, OCER) is an indispensable component of workflows to re-discover information about chemicals and to make it available in open-access databases. While the chemical structure is often at the heart of the findings reported in chemical articles, further information about the structure is present either in textual form or in other types of diagrams such as titration curves, spectra, etc. (Figure 1).
Previous software systems for OCER been described and were both incorporated into commercial and open source systems. These software systems include Kekulé [1-2], the Contreras system [3], the IBM system [4], CLIDE [5] as well as the open source approaches chemOCR [6-8] , ChemReader [9] and OSRA [10].
소개
화학 문헌으로부터 화학 구조 다이어그램의 자동 인식(이하 광학 화학 개체 인식, OCER라 함)은 화학 물질에 대한 정보를 다시 검색하고 개방형 액세스 데이터베이스에서 사용할 수 있도록 하기 위해 워크플로우의 필수적인 구성요소다. 화학적 구조가 종종 화학 기사에 보고된 소견의 핵심에 있지만, 구조에 대한 추가 정보는 텍스트 형식이나 적정 곡선, 스펙트럼 등과 같은 다른 유형의 다이어그램에 존재한다(그림 1).
OCER를 위한 이전 소프트웨어 시스템이 설명되었고, 내부 및 오픈 소스 시스템 둘 다 통합되었다. 이러한 소프트웨어 시스템에는 Kekulé[1-2], Contreras 시스템[3], IBM 시스템[4], CLIDE [5] 및 오픈 소스 접근법이 포함된다.OCR [6-8] , ChemReader [9] 및 OSRA [10]
질문 1 : smiles로부터 생성한 이미지를 학습에 사용한 모델이니, 실제 문헌에 있는 구조 이미지를 예측할때에 성능이 떨어지는 것이 아닌가?
질문 2 : 이러한 유형의 훈련 데이터를 수용하여 흐림, 잡음 추가 등과 같은 이미지 조작을 통해 화학 문헌에서 나타나는 화질에 비견할 수 있다 라고 decimer논문에서 말했는데 그렇다면. 실제로 학습할때 이와 같은 이미지 조작을 수행했는가?
질문3 : CDK에서 분자이미지를 생성했는가? 어떻게?https://cdk.github.io/
Chemistry Development Kit
Build CDK is built with Maven, you'll need to download and install the Maven Build Tool, mvn. Once Maven is installed, the whole project can be compiled, tested, and installed with the command mvn install. $> mvn install If you just want to use the very
cdk.github.io
랩요정들이 정리한 자료에 의하면
SMILES에 대하여
SMILES (Simplified Molecular Input Line Entry System)
기존의 분자식보다 컴퓨터에서 다루기 편한 표현 방법이라서 최근에 신약 연구나 약물 재창출(drug repositioning) 연구에서 자주 사용됩니다
Tanimoto similarity 를 사용해 모델의 성능을 평가했습니다. Tanimoto similarity 는 IoU (Intersection over Union) 와 동일한 개념으로, 두 표현식 사이의 교집합 크기를 합집합의 크기로 나눈 것으로 계산됩니다
분자 화합물 데이터를 통한 냄새 예측에 관한 것?
약물재창출이란?
물성 예측을 통한 경제성 증대, --> 새로운 소재의 물성을 예측(aihub.or.kr/sites/default/files/2020-04/2019_%EC%9C%B5%ED%95%A9%EC%97%B0%EA%B5%AC%EB%A6%AC%EB%B7%B0_1%EC%9B%94%ED%98%B8.pdf)
인공지능의 예측 방식은 소재 물성 데이터베이스(Database, DB)에서 소재(조성 및 구조 등) 정보와 물성간의 “상관관계”를 찾고, 이를 기반으로 새로운 소재의 물성을 예측하는 방식이다(양자역학, 고전역학, 통계역학과 같은 principle은 전혀 사용되지 않는다)
홈 트레이닝 서비스와 결합하여 고객만족도 향상 --> 이건 무슨 소리지?
스마트 모빌리티의 전자장치에 접목한 주행안전 보조시스템
내가 했던 프로젝트에서 smiles란?